핵심 요약
수학적 추론 능력을 높이기 위해 다양한 프롬프트 전략을 섞는 시도가 실제로는 효과가 미미하거나 오히려 성능을 떨어뜨릴 수 있음을 증명했습니다. 높은 온도의 샘플링이 이미 충분한 다양성을 제공하므로, 복잡한 프롬프트 기법보다 더 큰 모델을 사용하고 단순한 다수결 투표를 반복하는 것이 효율적이라는 실무적 통찰을 제공합니다.
왜 중요한가
수학적 추론 능력을 높이기 위해 다양한 프롬프트 전략을 섞는 시도가 실제로는 효과가 미미하거나 오히려 성능을 떨어뜨릴 수 있음을 증명했습니다. 높은 온도의 샘플링이 이미 충분한 다양성을 제공하므로, 복잡한 프롬프트 기법보다 더 큰 모델을 사용하고 단순한 다수결 투표를 반복하는 것이 효율적이라는 실무적 통찰을 제공합니다.
관련 Figure

대회가 거듭될수록 많은 수의 투표(High-N)보다는 모델 자체의 정확도(High-p)를 높이는 방향으로 기술이 진화하고 있음을 보여줍니다.
AIMO 대회 차수별 우승 점수와 N 값의 변화
핵심 기여
Diverse Prompt Mixer의 한계 규명
서로 다른 추론 전략을 가진 프롬프트를 혼합하여 오류의 상관관계를 줄이려 했으나, 높은 온도(T=1.0) 설정에서는 이미 확률적 다양성이 충분하여 프롬프트 다양성이 중복되거나 성능을 저해함을 확인했다.
모델 역량의 지배적 영향력 확인
8점의 모델 역량 차이(gpt-oss-120b vs 20b)가 어떠한 프롬프트 최적화 기법(±2점 내외)보다 결과에 결정적인 영향을 미침을 실험적으로 입증했다.
추론 시간 스케일링의 임계점 발견
샘플 수 N을 무작정 늘리는 것보다 주어진 시간 예산 내에서 모델의 체급을 유지하는 것이 중요하며, 예산을 초과하여 N을 늘리면 개별 추론 시간이 줄어들어 오히려 정확도가 하락하는 현상을 분석했다.
선택 손실(Selection Loss) 분석
다수결 투표 결과와 pass@20 성능 사이의 6점 차이가 프롬프트의 문제가 아닌, 정답이 후보군에 있음에도 오답에 밀리는 '선택 손실'에서 기인함을 밝히고 검증기(Verifier)의 필요성을 제안했다.
핵심 아이디어 이해하기
기존의 다수결 투표(Majority Voting) 방식은 여러 번의 추론 시도가 서로 독립적인 오류를 범한다는 가정하에 성립한다. 하지만 실제 LLM은 동일한 프롬프트에서 계통적 오류(Systematic Mistakes)를 반복하는 경향이 있어, 이를 해결하기 위해 '거꾸로 풀기'나 '작은 사례부터 확인하기' 같은 다양한 전략 프롬프트를 섞는 시도가 직관적으로 타당해 보였다.
그러나 딥러닝 모델의 출력 확률 분포를 결정하는 Softmax 함수의 온도(Temperature) 매개변수가 1.0에 가까워지면, 모델은 이미 충분히 다양한 추론 경로를 탐색하게 된다. 이때 인위적인 프롬프트 변화를 추가하는 것은 모델이 가장 잘 수행하는 기본 경로(Original Strategy)에서 벗어나게 만들어 오히려 개별 시도의 정확도를 낮추는 부작용을 낳는다.
결과적으로 오류 간의 상관관계를 줄여서 얻는 이득보다 개별 프롬프트의 품질 저하로 인한 손실이 더 크기 때문에, 복잡한 프롬프트 믹싱보다는 모델 자체의 기본 역량을 높이는 것이 수학적 추론 성능 향상에 훨씬 효과적이라는 결론에 도달한다.
관련 Figure

프롬프트 다양성을 높일수록(비기본 투표자 비율 증가) 성능이 단조롭게 하락하는 경향을 명확히 보여줍니다. 이는 인위적인 전략 혼합이 오히려 독이 됨을 입증합니다.
프롬프트 다양성 증가에 따른 성능 변화 추이
방법론
실험 시스템은 단일 H100 80GB GPU 환경에서 vLLM 엔진을 사용해 gpt-oss-120b(MoE 구조) 모델을 서빙하도록 구성했다. FP8 양자화를 적용해 가중치와 KV 캐시 메모리를 최적화했으며, 5시간이라는 엄격한 시간 제한 내에서 50개의 IMO 수준 문제를 해결하기 위해 동적 예산 할당 알고리즘을 구현했다.
추론 파이프라인은 5단계로 구성된다. 먼저 남은 시간을 문제 수로 나누어 예산을 할당하고, N=8의 병렬 시도를 수행한다. 각 시도는 Python 코드를 생성하고 실행할 수 있는 도구 통합 추론(Tool-integrated reasoning)을 지원하며, 8개 중 4개가 일치하면 조기 종료(Early Stopping)한다. 최종 답변은 엔트로피 가중 다수결(Entropy-weighted voting)을 통해 선택된다. [각 시도의 답변 확률 분포에서 엔트로피를 계산] → [1 + 1/(entropy + 0.1) 수식으로 가중치 w를 산출] → [확신도가 높은 시도에 더 큰 비중을 두어 합산] → [최종 답변 결정]
주요 결과
gpt-oss-120b 모델은 AIMO 3 벤치마크에서 50점 만점에 42점을 기록하며 로컬 최적점에 도달했다. 반면, 더 작은 체급인 gpt-oss-20b 모델은 동일한 N=8 조건에서 31점에 그쳐, 모델 체급 차이로 인한 8점의 격차가 프롬프트 최적화로 얻을 수 있는 이득(±2점)을 압도했다.
Ablation Study 결과, 온도 T=1.0이 가장 최적이었으며 T=0.5나 T=1.2로 변경 시 성능이 하락했다. 또한 Diverse Prompt Mixer를 통해 프롬프트 다양성을 높일수록 성능이 단조 감소하는 경향을 보였다. 특히 N을 32까지 늘린 실험에서는 개별 문제당 할당 시간이 부족해지면서 per-attempt 정확도가 0.61에서 0.52로 급락하여 최종 점수가 26점으로 떨어지는 역효과가 나타났다.
관련 Figure

모델의 체급(gpt-oss-120b vs 20b)에 따른 8점의 성능 격차가 프롬프트 최적화보다 훨씬 크다는 것을 보여줍니다. 또한 N을 무리하게 늘리는 것보다 개별 정확도 p를 유지하는 것이 중요함을 시각화합니다.
개별 시도 정확도 대비 예상 다수결 점수 그래프
기술 상세
본 연구는 gpt-oss-120b 모델을 사용하며, 이는 116.8B 파라미터 중 5.1B가 활성화되는 Mixture-of-Experts(MoE) 구조이다. vLLM 0.11.x 버전을 통해 FP8 양자화 상태로 서빙되며, 8개의 병렬 시퀀스를 65,536 토큰 컨텍스트 내에서 처리한다.
오류 상관관계 분석을 위해 'method-of-moments' 추정기를 사용하여 쌍별 상관관계 ρ를 계산했다. [정답 투표 수 vc와 전체 시도 N을 입력] → [vc(vc-1)/[N(N-1)] - p² / p(1-p) 연산 수행] → [상관관계 계수 ρ 산출]. 실험 결과 N≥7인 경우 ρ의 평균값이 -0.122로 나타나, 이미 오류들이 서로 독립적이거나 오히려 반대 방향으로 흩어져 있어 프롬프트 다양성을 통해 줄일 수 있는 '상관관계 여유분'이 거의 없음을 수학적으로 증명했다.
관련 Figure

대부분의 문제에서 상관관계 ρ가 0 이하로 나타나며, 이는 프롬프트 다양성을 통해 오류를 더 분산시킬 여지가 거의 없음을 수학적으로 뒷받침합니다.
문제별 정확도와 쌍별 상관관계(ρ)의 분포
한계점
본 논문은 프롬프트 수준의 추론 시간 최적화에 집중하고 있으며, 다수결 투표 자체를 개선할 수 있는 선택 수준(Selection-level)의 최적화인 검증기(Verifier) 도입 효과에 대해서는 직접 테스트하지 않았다. 또한 5시간이라는 특정 시간 제한 환경에서의 결과이므로 무제한 자원 환경에서는 결과가 달라질 수 있다.
실무 활용
제한된 컴퓨팅 자원 내에서 수학적 추론 성능을 극대화해야 하는 경진대회나 실무 환경에 직접적인 가이드를 제공합니다.
- 하드웨어 제약이 있는 환경에서 가장 큰 MoE 모델을 선택하고 단순 다수결 투표 적용
- 복잡한 프롬프트 엔지니어링 대신 높은 온도(T=1.0) 설정으로 추론 다양성 확보
- 추론 시간 예산이 부족할 때 샘플 수(N)를 줄이더라도 개별 추론의 품질을 유지하는 전략 수립
- 다수결 투표의 한계를 극복하기 위해 정답을 골라내는 Verifier(검증기) 도입 검토
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.