본문으로 건너뛰기
강화학습을 위한 힌트 학습: GRPO의 이점 붕괴 문제 해결 | AI Trends