핵심 요약
기존 수학 데이터셋은 특정 국가에 편중되거나 규모가 작아 AI의 진정한 수학적 범용성을 평가하기 어려웠다. MATHNET은 47개국 17개 언어의 올림피아드 문제를 통합하여 AI가 복잡한 수식 구조와 다국어 맥락을 동시에 이해하는지 측정하는 강력한 도구를 제공한다.
왜 중요한가
기존 수학 데이터셋은 특정 국가에 편중되거나 규모가 작아 AI의 진정한 수학적 범용성을 평가하기 어려웠다. MATHNET은 47개국 17개 언어의 올림피아드 문제를 통합하여 AI가 복잡한 수식 구조와 다국어 맥락을 동시에 이해하는지 측정하는 강력한 도구를 제공한다.
핵심 기여
대규모 다국어 올림피아드 데이터셋 구축
47개국, 17개 언어, 143개 대회를 아우르는 30,676개의 고난도 수학 문제와 전문가가 작성한 해설을 수집하여 역대 최대 규모의 올림피아드 데이터셋을 완성했다.
수학 인지 검색 벤치마크 도입
단순 텍스트 겹침이 아닌 수학적 구조와 논리적 동등성을 기준으로 유사 문제를 찾는 능력을 평가하기 위해 4만 개의 합성 문제와 전문가 큐레이션 데이터를 포함한 MathNet-Retrieve를 제안했다.
RAG 성능의 검색 품질 민감도 증명
검색 증강 생성(RAG)이 수학 문제 해결에 도움이 되지만, 검색된 내용이 수학적 구조적으로 일치할 때만 유효하며 단순 유사도는 오히려 성능을 저하시킬 수 있음을 실험으로 입증했다.
관련 Figure

3만 개 이상의 문제, 17개 언어, 47개국 커버리지를 시각화하며 문제 해결, 검색, RAG라는 세 가지 주요 평가 축을 정의한다. 이는 MATHNET이 단순한 문제 모음이 아니라 종합적인 평가 프레임워크임을 나타낸다.
MATHNET 벤치마크의 전체 구조와 데이터 통계, 평가 태스크를 보여주는 개요도이다.
핵심 아이디어 이해하기
수학 문제는 동일한 논리 구조를 가졌더라도 변수 이름(x vs a)이나 표현 방식(지수 vs 로그)에 따라 겉모습이 완전히 달라질 수 있다. 기존의 임베딩 모델은 텍스트의 표면적인 유사도에 의존하기 때문에, 'x+y=1'과 'x²+y²=1'처럼 글자는 비슷하지만 수학적으로는 전혀 다른 문제를 구분하지 못하는 한계가 있다.
이 논문은 AI가 수학의 '표면'이 아닌 '심층 구조'를 이해하도록 강제한다. 이를 위해 하나의 문제를 변수 치환이나 대수적 변형을 통해 수학적으로는 같지만 겉모습은 다른 '양성 샘플'과, 겉모습은 비슷하지만 수식을 살짝 바꿔 논리를 틀어버린 '음성 샘플'을 쌍으로 구성했다.
결과적으로 모델은 단순한 단어 매칭이 아니라 수식의 불변량과 변환 원리를 파악해야만 정답을 찾을 수 있다. 이는 딥러닝 모델이 고차원적인 추론을 수행할 때 필요한 '유추적 사고' 능력을 정밀하게 측정하는 척도가 된다.
방법론
MATHNET은 세 가지 핵심 데이터셋으로 구성된다. 첫째, MathNet-Solve는 3만 개 이상의 문제와 LaTeX 기반 해설, 메타데이터를 포함한 메인 코퍼스이다. 둘째, MathNet-Retrieve는 1만 개의 앵커 문제마다 1개의 동등한 양성 샘플과 3개의 까다로운 음성 샘플을 매칭하여 총 4만 개의 데이터로 구성했다. 셋째, MathNet-RAG는 전문가가 엄선한 70개의 구조적 유사 문제 쌍을 통해 RAG의 실질적 효과를 측정한다.
데이터 추출을 위해 dots-ocr 프레임워크와 LLM 기반의 3단계 파이프라인을 설계했다. [PDF 문서 입력 → Gemini-2.5-Flash를 통한 세그먼트 식별 → GPT-4.1을 이용한 LaTeX 포맷 추출 → 규칙 기반 및 인간 검수를 통한 검증] 과정을 거쳐 데이터의 무결성을 확보했다. 특히 수학적 유사성을 Invariance(변환 불변성), Resonance(부분적 아이디어 공유), Affinity(주제적 연관성)의 세 단계로 정의하여 체계적인 평가 기준을 마련했다.
관련 Figure

대수(Algebra)와 기하(Geometry)가 각각 32%로 가장 큰 비중을 차지하며, 1985년부터 현재까지 데이터가 꾸준히 축적되었음을 보여준다. 특히 영어 외 언어가 26%를 차지하여 글로벌 벤치마크로서의 다양성을 입증한다.
MathNet-Solve 데이터셋의 대회 유형별 비중, 풀이 길이 분포, 연도별 데이터 증가 추이, 주제별 분포, 언어별 비중을 나타낸 차트이다.
주요 결과
실험 결과, 최신 추론 모델인 Gemini-3.1-Pro가 78.4%, GPT-5가 69.3%의 정확도를 기록하며 강력한 성능을 보였으나 여전히 올림피아드 수준의 난제를 완벽히 해결하지는 못했다. 특히 기하학(Geometry)과 이산수학(Discrete Math) 영역에서 모델들의 성능 저하가 뚜렷하게 나타났다.
검색 성능 평가에서는 기존 임베딩 모델들의 한계가 명확히 드러났다. Recall@1 점수가 대부분 5% 미만에 머물렀는데, 이는 모델들이 수학적 동등성보다 표면적인 텍스트 겹침에 더 높은 유사도 점수를 부여하기 때문이다. RAG 실험에서는 DeepSeek-V3.2-Speciale가 전문가 수준의 검색 결과를 활용했을 때 최대 12%의 성능 향상을 보이며 검색 품질이 수학적 추론에 결정적인 영향을 미침을 확인했다.
기술 상세
MATHNET 아키텍처는 수학적 유사성을 계층화하여 평가하도록 설계되었다. Invariance 모드는 구문적 재명명(Syntactic Renaming)이나 대수적 재구성(Algebraic Reformulation) 하에서도 동일한 해를 갖는지를 측정한다. Resonance 모드는 동일한 보조 정리(Lemma)나 증명 전략을 공유하는 문제를 식별하는 능력을 평가하며, 이는 단순한 의미론적 유사성을 넘어선다.
구현 측면에서 MathNet-Retrieve는 GPT-5를 활용하여 앵커 문제의 논리 구조는 유지하되 표면 제약 조건을 변경하는 방식으로 하드 네거티브(Hard Negatives)를 생성했다. 예를 들어 f(x)+f(y)=f(x+y)를 g(a)-g(a+b)=-g(b)로 변형하여 모델이 기호의 변화를 뚫고 본질적인 함수 방정식을 찾아내는지 테스트한다. 이러한 구조적 정렬 데이터는 향후 수학 특화 임베딩 모델의 대조 학습(Contrastive Learning)에 중요한 자원이 된다.
한계점
논문은 현재의 임베딩 모델들이 수학적 구조를 포착하는 데 근본적인 한계가 있음을 명시하며, 특히 시각적 정보가 포함된 멀티모달 수학 문제의 경우 텍스트 전용 문제보다 성능이 낮게 나타나는 경향이 있음을 지적했다.
실무 활용
고난도 수학 교육 플랫폼이나 AI 튜터링 시스템에서 문제 추천 및 자동 풀이 엔진을 고도화하는 데 활용될 수 있다.
- 다국어 수학 문제 은행의 자동 분류 및 유사 문제 추천 시스템 구축
- LLM의 수학적 추론 능력을 정밀하게 측정하기 위한 벤치마킹 도구
- 수학적 구조를 이해하는 특화 임베딩 모델 학습을 위한 데이터셋
코드 공개 여부: 공개
코드 저장소 보기키워드
코드 예제
SYSTEM_PROMPT = (
"Solve the following math problem. Write out your full reasoning. "
"At the very end, place your complete final response inside LaTeX \\boxed{}. "
"- If the problem asks for a numerical or closed-form answer, put only that final expression in the box. "
"- If the problem asks for a proof or argument, then enclose the entire proof (not just a concluding sentence) inside the box."
)논문에서 모델의 수학 문제 해결 능력을 평가하기 위해 사용한 시스템 프롬프트 예시
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.