Forward-KL 워밍업
교사 롤아웃에서의 다음 토큰 분포를 학생 모델이 모방하도록 KL 발산을 최소화하는 지도 학습 단계. 상황에 따라 모드 커버링을 유도하고 학생의 cold-start 문제를 완화한다.