본문으로 건너뛰기
RLVR에서의 학습 불능 현상: LLM 강화학습의 표현 한계와 gradient 문제 | AI Trends