핵심 요약
수학 난제 풀이 AI를 학습시킬 때, 모델이 정답을 한 번도 맞추지 못해 학습이 정체되는 보상 희소성 문제가 자주 발생한다. 이 논문은 인간의 풀이를 힌트로 제공하여 모델이 스스로 정답 경로를 찾게 유도하는 ReGFT 기법을 통해, 기존 방식으로는 풀 수 없던 문제들을 학습 가능하게 만들어 AI의 추론 한계를 확장한다.
왜 중요한가
수학 난제 풀이 AI를 학습시킬 때, 모델이 정답을 한 번도 맞추지 못해 학습이 정체되는 보상 희소성 문제가 자주 발생한다. 이 논문은 인간의 풀이를 힌트로 제공하여 모델이 스스로 정답 경로를 찾게 유도하는 ReGFT 기법을 통해, 기존 방식으로는 풀 수 없던 문제들을 학습 가능하게 만들어 AI의 추론 한계를 확장한다.
핵심 기여
Reference-Guided Fine-tuning (ReGFT) 방법론 제안
인간의 참조 풀이 중 일부(약 80%)를 힌트로 제공하여 모델이 자신의 추론 스타일을 유지하면서도 정답에 도달하는 경로를 생성하도록 유도하는 기법이다.
보상 희소성(Reward Sparsity) 문제의 효과적 완화
모델이 자력으로 풀지 못하는 고난도 문제에 대해 정답 궤적을 합성함으로써, 강화학습 초기 단계에서 유의미한 양의 보상 신호를 확보할 수 있게 한다.
모델 고유 추론 분포와의 정렬 유지
인간의 풀이를 그대로 복제하는 대신 힌트를 바탕으로 모델이 직접 추론하게 함으로써, 모델의 내재적 추론 패턴과 학습 데이터 간의 불일치를 방지하고 일반화 성능을 높인다.
핵심 아이디어 이해하기
강화학습(RL)은 모델이 생성한 결과물에 대해 보상을 주어 학습시킨다. 하지만 수학 난제처럼 정답 확률이 극히 낮은 경우, 모델은 수천 번을 시도해도 정답을 한 번도 맞추지 못해 업데이트를 위한 Gradient를 생성하지 못하는 보상 희소성 상태에 빠진다. 기존에는 인간의 풀이를 그대로 학습시키는 SFT를 썼지만, 인간의 사고 방식과 AI의 토큰 생성 방식이 너무 달라 모델이 이를 제대로 내면화하지 못하는 문제가 있었다.
ReGFT는 인간의 풀이를 정답지가 아닌 길잡이(힌트)로 활용한다. 모델에게 풀이 과정의 80% 정도를 보여주고 나머지 20%와 최종 결론을 직접 도출하게 하면, 모델은 자신의 언어 스타일을 유지하면서도 정답 궤적을 완성할 수 있다. 이렇게 만들어진 성공 경험 데이터셋으로 먼저 학습(Fine-tuning)한 뒤 RL을 시작하면, 초기부터 풍부한 보상 신호를 받아 훨씬 더 어려운 문제까지 정복할 수 있게 된다.
방법론
ReGFT의 전체 파이프라인은 사전 학습된 모델을 대상으로 참조 가이드 샘플링을 수행하여 데이터셋을 구축하고, 이를 통해 파인튜닝된 체크포인트를 생성한 뒤 본격적인 강화학습(DAPO 등)을 진행하는 단계로 구성된다.
핵심 메커니즘인 Reference-Guided Sampling은 OmniMath와 같은 데이터셋의 참조 풀이에서 처음 80% 문장을 추출하여 프롬프트의 컨텍스트로 입력한다. 모델은 이 힌트를 바탕으로 나머지 20%의 추론 과정과 최종 정답을 생성하며, rule-based verifier를 통해 정답 여부를 검증한다. [문제+힌트 입력 → 모델 추론 생성 → 정답 검증 → 성공한 궤적 추출] 순으로 학습 데이터를 확보한다.
학습 단계에서는 모델이 자력으로 생성한 정답 궤적(ReFT 방식)과 참조 가이드를 통해 생성한 궤적을 혼합하여 Supervised Fine-tuning을 수행한다. 특히 정답률 25% 미만의 고난도 문제에 집중하여 학습함으로써 모델의 기초 역량(Baseline capability)을 RL 이전에 끌어올린다.
주요 결과
AIME 2024, AIME 2025, Beyond-AIME 벤치마크에서 ReGFT로 초기화된 모델은 Raw 체크포인트나 ReFT(자체 생성 정답만 사용) 대비 일관되게 높은 정확도를 기록했다. 특히 RL 학습 초기 단계에서 훨씬 빠른 수렴 속도를 보였으며, 최종 성능(Plateau) 또한 더 높게 형성되었다.
OmniMath 데이터셋 분석 결과, 표준 샘플링으로는 해결하지 못했던 문제 중 5.85%를 참조 가이드 샘플링을 통해 추가로 해결할 수 있었다. 이는 ReGFT가 모델의 기존 문제 해결 경계를 실질적으로 확장했음을 의미한다.
추론 시간 스케일링(Inference-time scaling) 분석에서 ReGFT는 k값이 커질수록(pass@k) 성능이 더 안정적으로 향상되는 모습을 보였다. 이는 ReFT가 기존의 성공 궤적을 강화하여 다양성을 해치는 것과 달리, ReGFT는 새로운 해결 패턴을 도입하여 솔루션 공간의 커버리지를 넓혔기 때문이다.
기술 상세
ReGFT는 RLVR(Reinforcement Learning with Verifiable Rewards) 프레임워크 내에서 보상 희소성 문제를 해결하기 위한 Warm-up 전략으로 기능한다. 기존 ReFT가 on-policy 샘플링에 국한된 것과 달리, 외부 지식(Reference)을 모델의 latent space로 이식하는 브릿지 역할을 수행한다.
알고리즘적으로는 DAPO(Decoupled Clip and Dynamic sampling Policy Optimization)를 RL 엔진으로 채택하였다. DAPO는 GRPO의 변형으로, decoupled clipping을 통해 고품질 궤적을 유연하게 강화하고 dynamic sampling으로 정책 다양성을 유지한다.
데이터 구성 시 정답률 25% 미만의 Hard 문제만을 선별하여 학습함으로써 과적합(Overfitting)을 방지하고 모델이 부족한 역량에 집중하도록 설계되었다. 참조 풀이의 80%를 제공하는 비율은 모델이 정답을 단순히 복사하지 않고 논리적 연결 고리를 직접 생성하도록 유도하는 최적의 임계값으로 설정되었다.
한계점
인간의 참조 풀이가 모델의 학습 분포를 크게 벗어나는 고등 수학 개념을 포함할 경우 모델이 이를 내면화하는 데 한계가 있다. 또한, 현재의 rule-based verifier는 증명 방식의 풀이에서 오답(False Negative)을 낼 가능성이 있어 완벽한 검증이 어렵다.
실무 활용
수학, 코딩, 논리 추론 등 정답 확인은 쉽지만 정답 경로를 찾기 어려운 도메인에서 모델의 추론 성능을 비약적으로 높이는 데 활용 가능하다.
- 고난도 수학 올림피아드 문제 해결용 모델 학습
- 복잡한 알고리즘 문제의 추론 경로 생성 및 최적화
- 인간의 가이드가 포함된 전문 지식 기반 추론 에이전트 개발
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.