TL;DR
올림피아드 문제는 장기적 추론과 증명-검증의 엄밀한 조합이 필요하다. 본 연구는 SFT로 규범적 증명-검색 습관을 주입하고, 두 단계의 RL로 탐색 및 증명 품질을 확장하며, TTS로 평가-검증 비용을 늘려 골드급 성능을 달성한다. 또한 수학과 물리 외의 과학 도메인으로 일반화될 가능성을 보인다.
왜 중요한가
올림피아드 문제는 장기적 추론과 증명-검증의 엄밀한 조합이 필요하다. 본 연구는 SFT로 규범적 증명-검색 습관을 주입하고, 두 단계의 RL로 탐색 및 증명 품질을 확장하며, TTS로 평가-검증 비용을 늘려 골드급 성능을 달성한다. 또한 수학과 물리 외의 과학 도메인으로 일반화될 가능성을 보인다.
핵심 기여
Reverse-perplexity 커리큘럼 기반 SFT
포스트-트레이닝된 추론 백본에 증명-검색 중심의 긴 형식 추론 및 자기검증/수정 행동을 학습시키고, 338K trajectories를 이용해 네거티브 신호를 제거하며 4에포크로 안정화한다.
Coarse RL 및 Verifiable Rewards
8,967개의 verifiable prompts로 GSPO를 이용해 검색-해결 능력을 확대하고, 자동 검증으로 보상을 산정한다.
Refined RL 및 증명-레벨 보상
DeepSeekMath-V2를 생성 보상으로 사용하고, self-refinement과 replay를 도입해 증명 품질을 강화한다.
Test-time Scaling으로 추론 예산 확장
Solver-Verify-Refine 루프를 통해 초장기 추론을 가능하게 하고, 최대 수십만 토큰 규모의 맥락에서도 일관된 논리를 유지한다.
소형 백본으로 올림피아드 골드 달성 및 일반화
30B-A3B 백본에서 SU-01을 구성, IMO/IPhO 골드 라인에 도달하고 수학-물리 외 도메인으로의 일반화를 확인한다.
핵심 아이디어 이해하기
올림피아드 문제의 핵심은 긴 흐름의 해결책 탐색과 각 단계의 검증이다. SFT는 증명-검색 패턴과 자기검증 습관을 고립된 데이터로 강화하고, RL은 이 패턴이 문제를 더 넓은 범위의 문제에 적용되도록 확장한다. TTS는 추가 추론 예산을 제공해 더 긴 추론 과정을 안정적으로 유지하며, 최종적으로 proof-level의 품질까지 확보한다.
방법론
- SFT 데이터 구성 및 역 perplexity 커리큘럼: 338K trajectories를 수집/정제하고, 4에포크 학습, 8K 토큰 제한으로 긴 솔루션의 신호를 학습한다.
- Coarse RL: verifiable prompts를 사용하여 GSPO로 정책을 개선하고, 최종 답안의 정합성을 보상한다.
- Refined RL: 증명-품질 보상을 도입하고 self-refinement/경험 재생으로 복잡한 proofs를 학습한다.
- Test-time Scaling: solver-verify-refine 루프를 반복하여 추론을 확장하고, 검증의 견고함을 확보한다.
관련 Figure

파이프라인의 구성 요소 간 관계를 직관적으로 보여주며 SFT- RL- TTS의 상호 작용을 이해하는 데 유용하다.
SU-01 파이프라인의 학습 및 추론 흐름 다이어그램

SFT 데이터의 구성과 품질 관리가 학습 신호에 어떻게 반영되는지 확인 가능
SFT 데이터 구성을 나타낸 도식. 338K traj 구성과 그룹 구성을 시각화
주요 결과
- 벤치마크 전반에서 강력한 성능: AnswerBench/AMO-Bench/AIME 25/26/ FrontierScience-Olympiad의 평균 77.3%에 근접, 동일 규모의 강한 Baseline에 근접.
- 비검증 벤치마크: IMO-ProofBench 직접 생성 57.6%, TTS 적용 시 70.2%까지 상승.
- IPhO 2024/2025: 각각 23.5/25.3점(Direct), 25.3/21.7점(TTS).
- IMO 2025 및 USAMO 2026: TTS 적용 시 35점으로 골드 라인에 도달; 직접 생성도 여러 문제에서 완전 해결 가능.
- 총합: SU-01은 유사 규모의 벤치에서 최고 수준의 점수를 달성하며, 도메인 일반화에서도 강한 전이를 보여준다.
관련 Figure

테스트-타임 검증-수정 루프가 토큰 길이와 처리 흐름에 어떻게 반영되는지 시각적으로 제시
TTS 추론 흐름과 트레이닝 스펙트럼

비검증 벤치마크에서의 SU-01 성능과 RL의 효과를 직접 보여줌
IMO-ProofBench 벤치마크 표(비verifiable 영역)

유사 규모 모델 간 벤치마크 위치를 비교해 SU-01의 상대적 강점을 보여줌
AnswerBench vs AMO-Bench 비교 차트
실무 활용
SU-01 파이프라인은 짧은 프롬프트에서 긴 형식의 증명으로의 전이를 가능하게 하며, 학술적 문제 해결과 일반 과학 도메인으로의 전이 가능성을 시사한다.
- 고난도 수학/물리 문제의 자동 증명 생성 및 검증 도구
- 수학·물리 학습 보조용 튜토리얼 생성 및 피드백 루프
- 연구 문제의 논리적 구성과 증명 전략 탐색
- 코딩/과학 문제 해결에 대한 도구적 지원
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.