사후 가이드 기반 온폴리시 증류
행동이 완료된 후 얻은 정보를 바탕으로 당시의 행동을 어떻게 수정했어야 했는지에 대한 힌트를 추출하여 정책 모델을 학습시키는 기법입니다. 단순한 수치 보상보다 더 구체적인 토큰 수준의 학습 방향을 제시합니다.