다중 도메인 온폴리시 증류
동일한 초기 모델에서 파생된 우수한 중간 모델들을 교사로 삼아 토큰 단위로 지식을 전수하는 방식이다. 기존 시퀀스 단위 보상 방식보다 샘플 효율성이 뛰어나 학습 속도를 획기적으로 높인다.