일반화된 어드밴티지 추정
강화학습에서 보상의 분산을 줄이고 편향을 조절하여 어드밴티지 함수를 더 정확하게 추정하는 기법이다. 학습의 안정성을 높이며 PPO와 같은 알고리즘에서 핵심적인 역할을 수행한다.
PPO와 GRPO의 차이점? LLM 정렬을 위한 RL 핵심 완벽 정리