온폴리시 추론(on-policy-inference)이란 무엇인가요?

Question

Accepted Answer

강화학습 과정에서 현재 학습 중인 모델이 직접 생성한 결과물을 바탕으로 학습을 진행하는 방식이다. 타사 모델의 데이터를 단순히 복제하는 증류와 달리, 모델 스스로의 시행착오를 통해 성능을 개선하므로 고도화된 RL 시스템 구축에 필수적이다.

on-policy-inference