그룹 상대 이득
한 프롬프트에서 생성된 샘플 군의 보상 평균·표준편차로 정규화한 이득 신호로, 서로 다른 보상 스케일을 균일화하고 그룹 내부 비교를 통해 안정적인 정책 그레이디언트를 얻는 데 사용됐다.