온폴리시 강화학습
현재 학습 중인 정책이 직접 환경과 상호작용하여 생성한 데이터를 즉시 학습에 사용하는 방식이다. 데이터의 최신성이 보장되지만 샘플 효율성이 낮을 수 있다는 특징이 있다. GRPO와 P-GRPO는 모두 이 방식을 채택하여 실시간 생성 결과를 바탕으로 모델을 정렬한다.