온폴리시 학습
모델이 현재 보유한 정책을 사용하여 직접 데이터를 생성하고, 그 결과에 따라 즉각적으로 정책을 업데이트하는 학습 방식이다. 학습 데이터와 실제 추론 시 데이터의 분포 차이를 줄여 성능을 안정화하고 보상 해킹을 방지하는 데 중요한 역할을 한다.