행동 복제
전문가의 행동 데이터를 직접 학습하여 그 방식을 그대로 모방하도록 정책을 훈련시키는 기법이다. 보상 함수 설계가 어려운 복잡한 작업에서 유용하게 사용되며 시연자의 데이터를 기반으로 빠르게 초기 성능을 확보할 수 있다. 최근에는 시연자의 한계를 넘어서는 성능 최적화 연구가 활발히 진행되고 있다.