GRPO
GRPO는 그룹 내의 실패/성공 샘플 간 상대 이점을 이용해 정책을 업데이트하는 RLVR 방법으로, 그룹 평균에 비해 양의 기여를 가지는 샘플을 강화하고 음의 기여를 가진 샘플을 제약한다.