On-Policy Distillation
학생의 rollouts에 대해 교사의 로그-확률을 온-정책으로 조회하여 KL(πθ || πT)을 최소화하는 역-KL 기반 업데이트를 수행하는 교사--학생 간 지식전이 방법.