온-정책 자기 증류
동일 모델이 학생과 교사 역할을 교대하며, 학생의 롤아웃에서 교사가 y∗(참고 해결책)과 영어 번역 정보를 활용해 분포를 정제하는Dense 감독 학습 방법이다. 다중 언어에서의 추론 능력을 외부 교사 없이도 개선한다.