온폴리시 학습(on-policy-training)이란 무엇인가요?

Question

Accepted Answer

모델이 현재 보유한 정책을 사용하여 직접 데이터를 생성하고, 그 결과에 따라 즉각적으로 정책을 업데이트하는 학습 방식이다. 학습 데이터와 실제 추론 시 데이터의 분포 차이를 줄여 성능을 안정화하고 보상 해킹을 방지하는 데 중요한 역할을 한다.

on-policy-training