토큰-수준 KL 발산
autoregressive 생성에서 깨끗한 입력과 degraded 입력 간의 토큰 분포를 KL 발산으로 정합시키는 기법. stop-gradient를 사용해 깨끗한 정책 표현을 보존하면서 degraded 입력과의 분포 차이를 최소화한다.