그룹 상대 정책 최적화(grpo)이란 무엇인가요?

Question

Accepted Answer

강화학습을 통해 모델의 정책을 최적화하는 알고리즘이다. 그룹 내 상대적 보상을 활용하여 모델의 자아 인식과 행동 전이 능력을 높이며 특히 추론 능력이 강화된 모델의 사후 학습에 핵심적인 기술로 활용된다.

grpo