단순하고 통합된 스케일링으로 골드메달 수준의 올림피아드 추론 달성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

올림피아드 문제는 장기적 추론과 증명-검증의 엄밀한 조합이 필요하다. 본 연구는 SFT로 규범적 증명-검색 습관을 주입하고, 두 단계의 RL로 탐색 및 증명 품질을 확장하며, TTS로 평가-검증 비용을 늘려 골드급 성능을 달성한다. 또한 수학과 물리 외의 과학 도메인으로 일반화될 가능성을 보인다.

왜 중요한가

올림피아드 문제는 장기적 추론과 증명-검증의 엄밀한 조합이 필요하다. 본 연구는 SFT로 규범적 증명-검색 습관을 주입하고, 두 단계의 RL로 탐색 및 증명 품질을 확장하며, TTS로 평가-검증 비용을 늘려 골드급 성능을 달성한다. 또한 수학과 물리 외의 과학 도메인으로 일반화될 가능성을 보인다.

핵심 기여

Reverse-perplexity 커리큘럼 기반 SFT

포스트-트레이닝된 추론 백본에 증명-검색 중심의 긴 형식 추론 및 자기검증/수정 행동을 학습시키고, 338K trajectories를 이용해 네거티브 신호를 제거하며 4에포크로 안정화한다.

Coarse RL 및 Verifiable Rewards

8,967개의 verifiable prompts로 GSPO를 이용해 검색-해결 능력을 확대하고, 자동 검증으로 보상을 산정한다.

Refined RL 및 증명-레벨 보상

DeepSeekMath-V2를 생성 보상으로 사용하고, self-refinement과 replay를 도입해 증명 품질을 강화한다.

Test-time Scaling으로 추론 예산 확장

Solver-Verify-Refine 루프를 통해 초장기 추론을 가능하게 하고, 최대 수십만 토큰 규모의 맥락에서도 일관된 논리를 유지한다.

소형 백본으로 올림피아드 골드 달성 및 일반화

30B-A3B 백본에서 SU-01을 구성, IMO/IPhO 골드 라인에 도달하고 수학-물리 외 도메인으로의 일반화를 확인한다.

핵심 아이디어 이해하기

올림피아드 문제의 핵심은 긴 흐름의 해결책 탐색과 각 단계의 검증이다. SFT는 증명-검색 패턴과 자기검증 습관을 고립된 데이터로 강화하고, RL은 이 패턴이 문제를 더 넓은 범위의 문제에 적용되도록 확장한다. TTS는 추가 추론 예산을 제공해 더 긴 추론 과정을 안정적으로 유지하며, 최종적으로 proof-level의 품질까지 확보한다.

방법론

SFT 데이터 구성 및 역 perplexity 커리큘럼: 338K trajectories를 수집/정제하고, 4에포크 학습, 8K 토큰 제한으로 긴 솔루션의 신호를 학습한다.
Coarse RL: verifiable prompts를 사용하여 GSPO로 정책을 개선하고, 최종 답안의 정합성을 보상한다.
Refined RL: 증명-품질 보상을 도입하고 self-refinement/경험 재생으로 복잡한 proofs를 학습한다.
Test-time Scaling: solver-verify-refine 루프를 반복하여 추론을 확장하고, 검증의 견고함을 확보한다.

주요 결과

벤치마크 전반에서 강력한 성능: AnswerBench/AMO-Bench/AIME 25/26/ FrontierScience-Olympiad의 평균 77.3%에 근접, 동일 규모의 강한 Baseline에 근접.
비검증 벤치마크: IMO-ProofBench 직접 생성 57.6%, TTS 적용 시 70.2%까지 상승.
IPhO 2024/2025: 각각 23.5/25.3점(Direct), 25.3/21.7점(TTS).
IMO 2025 및 USAMO 2026: TTS 적용 시 35점으로 골드 라인에 도달; 직접 생성도 여러 문제에서 완전 해결 가능.
총합: SU-01은 유사 규모의 벤치에서 최고 수준의 점수를 달성하며, 도메인 일반화에서도 강한 전이를 보여준다.

실무 활용

SU-01 파이프라인은 짧은 프롬프트에서 긴 형식의 증명으로의 전이를 가능하게 하며, 학술적 문제 해결과 일반 과학 도메인으로의 전이 가능성을 시사한다.

고난도 수학/물리 문제의 자동 증명 생성 및 검증 도구
수학·물리 학습 보조용 튜토리얼 생성 및 피드백 루프
연구 문제의 논리적 구성과 증명 전략 탐색
코딩/과학 문제 해결에 대한 도구적 지원

코드 공개 여부: 공개

코드 저장소 보기

키워드

OLympiad ReasoningSFTRLVRGSPOSelf-VerificationTest-time ScalingProof-searchReverse-Perplexity