정책 증류
성능이 뛰어난 교사 모델의 지식을 더 가볍거나 제약이 많은 학생 모델에게 전달하는 학습 기법이다. 특권 정보를 가진 교사의 행동을 모방하게 함으로써 학생 모델의 학습 효율을 극대화한다.