자기 증류 정책 최적화
모델이 생성한 답변에 에러 메시지 등 피드백을 추가하여 스스로 '교사' 역할을 수행하게 함으로써 성능을 개선하는 강화학습 기법이다. 별도의 보상 모델 없이 모델 내부의 지식을 활용해 추론 능력을 정렬하며, 학습 효율이 높다는 장점이 있다.