Qwen2.5-1.5B 모델의 RLVR과 SFT 수학 추론 성능 비교 실험 결과

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Qwen2.5-1.5B 모델을 대상으로 RLVR과 SFT의 성능을 비교한 결과, RLVR은 수학 추론 능력을 크게 향상시킨 반면 SFT는 오히려 성능을 저하시켰음을 입증했습니다.

배경

DeepSeek-R1에서 사용된 RLVR(Reinforcement Learning with Verifiable Rewards) 기법의 효과를 검증하기 위해, Qwen2.5-1.5B 모델을 GSM8K 데이터셋으로 학습시켜 기존 SFT 방식과 성능 차이를 분석한 프로젝트입니다.

의미 / 영향

이 실험은 DeepSeek-R1의 성공 요인인 RLVR이 소형 모델에서도 강력한 효과를 발휘함을 보여줍니다. 향후 LLM 미세 조정 방식이 단순 SFT에서 검증 가능한 보상을 활용한 강화학습 중심으로 이동할 것임을 시사하는 중요한 사례입니다.

커뮤니티 반응

작성자가 240만 행에 달하는 상세한 실험 로그와 소스 코드를 투명하게 공개하여 커뮤니티로부터 높은 신뢰와 긍정적인 반응을 얻고 있습니다. 특히 소형 모델에서도 RLVR의 효과가 뚜렷하게 나타난다는 점에 많은 사용자가 주목하고 있습니다.

주요 논점

01찬성다수

RLVR은 모델이 스스로 사고 과정을 최적화하도록 유도하여 추론 능력을 실질적으로 향상시킵니다.

02반대다수

추론 작업에서 SFT는 모델의 기존 능력을 저해하고 표면적 모방에 그칠 위험이 큽니다.

합의점 vs 논쟁점

합의점

검증 가능한 보상(Verifiable Rewards)을 활용한 강화학습이 수학적 추론 능력 향상에 매우 효과적입니다.
SFT는 모델의 출력 형식을 정돈하는 데는 유용하지만 지능 자체를 높이지는 못합니다.

실용적 조언

추론 능력이 핵심인 모델을 개발할 때는 SFT에만 의존하기보다 RLVR 또는 GRPO와 같은 보상 기반 강화학습 도입을 우선적으로 고려하십시오.
모델의 성능 변화를 정확히 파악하기 위해 학습 과정에서 다수의 체크포인트를 벤치마킹하고 로그를 상세히 기록하는 것이 중요합니다.

언급된 도구

Qwen2.5-1.5B-Instruct중립

실험의 베이스라인이 된 경량 언어 모델

GRPO추천

RLVR 구현을 위해 사용된 강화학습 알고리즘

Datasette추천

240만 행의 실험 로그를 웹에서 조회하기 위한 도구

섹션별 상세

RLVR과 SFT의 극명한 성능 차이가 관찰되었습니다. RLVR 기법은 수학 추론 점수를 11.9점 향상시킨 반면, 지도 미세 조정(Supervised Fine-tuning) 방식은 오히려 15.2점 하락시키는 결과를 보였습니다. 작성자는 SFT가 모델의 기존 지식을 덮어쓰고 표면적인 패턴만 흉내 내게 만들어 실제 추론 능력을 저하시킨다고 분석했습니다. 반면 RLVR은 검증 가능한 신호를 통해 모델이 스스로 사고의 사슬(Chain-of-Thought)을 생성하도록 유도하여 실질적인 지능 향상을 이끌어냈습니다.

단일 예제 학습을 통한 일반화 성능의 가능성을 확인했습니다. 단 하나의 예제만으로 RLVR 학습을 진행했을 때도 GSM8K 성능이 향상되었을 뿐만 아니라, 직접 학습하지 않은 MATH 벤치마크 점수까지 올라가는 현상이 나타났습니다. 이는 RLVR이 단순히 특정 데이터를 외우는 것이 아니라 모델 내부의 일반적인 추론 메커니즘을 활성화하거나 개선한다는 점을 시사합니다. 작성자는 이러한 결과가 RLVR이 모델의 잠재된 능력을 끌어내는 데 매우 효율적인 방식임을 증명한다고 강조했습니다.

SFT의 한계와 형식 학습의 부작용에 대해 논의되었습니다. SFT 학습 결과 모델은 정답을 출력하는 형식(Format)은 더 잘 지키게 되었으나, 실제 정답의 정확도는 오히려 떨어지는 현상이 관찰되었습니다. 이는 모델이 논리적 사고 과정을 학습하기보다 단순히 데이터셋의 겉모습을 복제하는 데 집중했기 때문으로 풀이됩니다. 작성자는 추론 능력이 중요한 작업에서는 단순한 다음 토큰 예측 방식의 SFT보다 보상 기반의 강화학습이 훨씬 우월하다는 결론을 내렸습니다.

실무 Takeaway

RLVR은 Qwen2.5-1.5B의 수학 추론 성능을 11.9점 향상시키며 실질적인 지능 개선 효과를 입증했습니다.
SFT는 모델의 사전 학습된 지식을 손상시켜 추론 성능을 15.2점이나 떨어뜨리는 부작용을 보였습니다.
RLVR은 단 하나의 예제만으로도 학습되지 않은 영역까지 일반화된 추론 능력을 향상시킬 수 있습니다.
SFT는 출력 형식 준수에는 도움이 되지만 실제 논리적 정확도를 높이는 데는 한계가 명확합니다.

언급된 리소스

GitHubRLVR-vs-SFT-Qwen2.5-1.5b GitHub

DemoRLVR vs SFT Live Logs on Hugging Face