수학적 객체에 대한 추론: 온폴리시 보상 모델링 및 테스트 시간 집계

기존 AI 수학 평가는 객관식이나 단순 숫자 정답에 치중되어 실제 과학적 추론 능력을 과대평가하는 경향이 있었다. 이 논문은 행렬이나 구간 함수 같은 복잡한 수학적 객체를 직접 도출하는 능력을 학습시키고 평가하는 프레임워크를 제시하여, AI가 실제 연구 수준의 STEM 문제를 해결할 수 있는 기반을 마련했다.

핵심 요약

왜 중요한가

핵심 기여

PrincipiaBench 구축

대학원 수준의 물리 및 수학 문제를 포함하며, 단순 수치가 아닌 복잡한 수학적 식을 정답으로 요구하는 2,558개의 엄격한 벤치마크 데이터셋을 공개했다.

Principia Collection 생성

수학 및 물리의 세부 분류 체계를 바탕으로 생성된 248,000개의 합성 학습 데이터셋을 통해 모델의 고차원 추론 학습을 지원한다.

RLLM(Reinforcement Learning with LM as RM) 제안

규칙 기반 검증기가 처리하기 힘든 복잡한 수식의 동등성을 판별하기 위해, 강력한 언어 모델을 보상 모델로 사용하는 온폴리시 학습 기법을 도입했다.

ParaGator 프레임워크 개발

테스트 시간 연산량을 확장하기 위해 생성 모델과 집계 모델을 동시에 온라인 강화학습으로 최적화하여 정답 도출 성능을 극대화했다.

핵심 아이디어 이해하기

기존의 수학 추론 학습은 주로 정답이 숫자 하나이거나 객관식인 문제에 의존해왔다. 이는 정답 여부를 판단하기 명확하여 Loss function 계산이 쉽기 때문이지만, 실제 과학적 문제 해결에서 필요한 복잡한 수식이나 행렬 도출 능력을 기르는 데는 한계가 있다. 본 논문은 '수학적 객체' 자체를 생성하는 능력을 핵심으로 보고, 이를 위해 규칙 기반 검증기 대신 강력한 LLM을 보상 모델로 활용하는 RLLM 기법을 도입했다. 수식의 형태가 다르더라도 수학적 의미가 같은지를 LLM이 추론하여 보상을 제공함으로써 기존 검증 도구의 취약성을 극복한다. 또한 ParaGator를 통해 여러 해결책을 병렬로 생성하고 이를 다시 하나의 정답으로 합치는 과정을 강화학습으로 훈련시킨다. 생성 단계에서는 다양성을, 집계 단계에서는 정확성을 목표로 최적화하여 테스트 시점에 더 많은 계산 자원을 투입할수록 성능이 비례해서 향상되도록 설계했다.

방법론

Principia Suite 구축을 위해 RealMath, Physics 등 4개 소스에서 문제를 수집하고, 정답이 반드시 수학적 객체여야 하며 단일 질문으로 구성된 자립형 문제만 남기도록 GPT-OSS-120B를 활용해 필터링했다. RLLM 단계에서는 강력한 교사 모델이 생성한 레이블을 바탕으로 보상 모델을 먼저 학습시킨 후, 이 RM이 생성하는 보상을 사용하여 정책 모델을 최적화한다. [정책 모델의 응답 → RM의 사고 과정 및 점수 생성 → 정책 모델 업데이트] 순으로 학습이 진행된다. ParaGator는 생성기와 집계기를 동시에 훈련시키는 온라인 강화학습 프레임워크다. 생성기는 pass@k 목적 함수를 통해 정답 가능성이 있는 다양한 후보군을 만들도록 유도한다. [N개의 샘플 생성 → k개 무작위 추출 시 정답 포함 확률 계산 → Advantage 부여] 방식으로 연산하여 다양성을 확보한다. 집계기는 pass@1 최적화를 통해 최적의 정답을 선택하거나 합성하도록 훈련하여 학습과 추론 간의 미스매치를 제거한다.

주요 결과

PrincipiaBench 평가 결과, Qwen3-235B(55.58)와 o3(62.90) 같은 최신 모델들도 기존 AIME(80점 이상) 대비 현저히 낮은 점수를 기록하며 해당 벤치마크의 높은 난이도를 증명했다. Principia Collection으로 학습한 모델들은 PrincipiaBench에서 평균 7.22~18.35%의 성능 향상을 보였으며, 이러한 개선 효과는 AIME(수치형) 및 GPQA(객관식) 등 다른 형식의 과제에서도 전이되어 나타났다. RLLM 기법은 기존 RLHF 및 RLVR 대비 특히 검증이 어려운 물리 및 수학 문제에서 월등한 성능 우위를 점했다. ParaGator를 적용했을 때, 단일 생성 모델보다 집계 후의 성능이 모든 벤치마크에서 일관되게 향상되었으며, 특히 어려운 문제일수록 테스트 시간 확장의 이득이 컸다.

실무 활용

고도의 수학적/과학적 추론이 필요한 전문 분야 AI 개발에 즉시 활용 가능하다. 특히 정답의 형태가 정형화되지 않은 연구용 AI 에이전트 학습에 유용하다.

대학원 수준의 물리/수학 문제 풀이 자동화 시스템 구축
복잡한 수식 및 알고리즘 도출을 위한 AI 연구 보조 도구 개발
다양한 정답 후보를 생성하고 최적의 결과를 합성하는 집계(Aggregation) 엔진 구현
규칙 기반 검증이 불가능한 전문 도메인의 강화학습 보상 체계 설계

기술 상세

Principia Collection은 MSC 2020 및 PhySH 분류 체계를 기반으로 248,748개의 합성 데이터를 생성했다. 각 데이터는 문제, 정답, 주제 엔티티로 구성되며 정답 유형은 방정식, 부등식, 구간, 집합, 행렬, 구간 함수의 6가지로 제한된다. RLLM은 RLAIF의 특수 사례로, LM-as-RM이 사고 과정을 생성한 후 최종 점수를 부여하여 보상 해킹을 방지하고 풍부한 피드백 시그널을 제공한다. ParaGator는 생성 단계에서 pass@k 목적 함수를 사용하여 모델이 단일 모드로 붕괴되는 것을 막고 탐색 공간을 넓힌다. 집계 단계에서는 온라인으로 생성된 데이터를 즉시 학습에 사용하여 오프라인 학습 시 발생하는 분포 불일치 문제를 해결한다. 모든 강화학습 과정은 GRPO 알고리즘을 통해 그룹 상대적 정책 최적화를 수행하며, 8개의 H200 노드(64 GPU) 환경에서 훈련되었다.

키워드

Principia(프린키피아)Mathematical Reasoning(수학적 추론)RLLM(언어 모델 기반 강화학습)ParaGator(파라게이터)On-policy Training(온폴리시 학습)Test-time Scaling(테스트 시간 확장)

수학적 객체에 대한 추론: 온폴리시 보상 모델링 및 테스트 시간 집계

핵심 요약

왜 중요한가

핵심 기여

PrincipiaBench 구축

Principia Collection 생성

수학 및 물리의 세부 분류 체계를 바탕으로 생성된 248,000개의 합성 학습 데이터셋을 통해 모델의 고차원 추론 학습을 지원한다.

RLLM(Reinforcement Learning with LM as RM) 제안

ParaGator 프레임워크 개발

테스트 시간 연산량을 확장하기 위해 생성 모델과 집계 모델을 동시에 온라인 강화학습으로 최적화하여 정답 도출 성능을 극대화했다.

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

대학원 수준의 물리/수학 문제 풀이 자동화 시스템 구축
복잡한 수식 및 알고리즘 도출을 위한 AI 연구 보조 도구 개발
다양한 정답 후보를 생성하고 최적의 결과를 합성하는 집계(Aggregation) 엔진 구현
규칙 기반 검증이 불가능한 전문 도메인의 강화학습 보상 체계 설계

수학적 객체에 대한 추론: 온폴리시 보상 모델링 및 테스트 시간 집계

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

키워드

수학적 객체에 대한 추론: 온폴리시 보상 모델링 및 테스트 시간 집계

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

키워드

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글