역(Reverse) Kullback-Leibler 발산
교사 분포 π_t와 학생 분포 π_s가 주어질 때 ∑_v π_s(v) log(π_s(v)/π_t(v))를 계산하는 거리 척도이다. 본문에서는 학생 샘플 토큰을 이용한 샘플드 토큰 추정량을 손실로 사용해 학생을 교사 분포로 정렬시킨다.