본문으로 건너뛰기
최소한의 RLVR 훈련으로 LLM의 외삽을 달성하는 방법: Rank-1 궤적 기반 | AI Trends