본문으로 건너뛰기
GRPO: 추론 모델 학습을 위한 효율적인 강화학습 알고리즘 이해 | AI Trends