본문으로 건너뛰기
Qwen2.5-1.5B 모델의 RLVR과 SFT 수학 추론 성능 비교 실험 결과 | AI Trends