온폴리시 추론
강화학습 과정에서 현재 학습 중인 모델이 직접 생성한 결과물을 바탕으로 학습을 진행하는 방식이다. 타사 모델의 데이터를 단순히 복제하는 증류와 달리, 모델 스스로의 시행착오를 통해 성능을 개선하므로 고도화된 RL 시스템 구축에 필수적이다.