On-Policy Self-Distillation
자신의 생성 시퀀스로 학습하는 엔드-투-엔드Distillation 방식으로, 다중 턴 에이전트의 학습에서 오프라인 교정 없이도 토큰 단위 지식을 전달하는 기법.