인간 프리픽스 롤아웃
사람이 초기에 일정 수준 조종한 상태에서 에이전트에게 제어권을 넘겨, 낯선 상황에서의 대응 능력을 테스트하는 기법이다.
단순 보상 그 이상을 측정하다: DQN 계열 알고리즘의 심층 진단 방법론