PRISM: 프로세스 보상 모델 가이드 추론을 통한 딥러닝 추론의 한계 돌파

왜 중요한가

기존의 AI 추론 방식은 단순히 여러 답을 생성하고 다수결을 따르는 한계가 있었으나, PRISM은 단계별 검증(PRM)을 통해 오답을 정답으로 유도하는 방향성 있는 정제 메커니즘을 제시한다. 이를 통해 훨씬 작은 모델로도 거대 모델 수준의 복잡한 수학 및 과학 문제 해결 능력을 확보할 수 있어 추론 효율성을 극대화한다.

핵심 기여

DEEPTHINK 시스템의 기능적 분류 체계 정립

복잡한 추론 시스템을 후보 생성(Creation), 인구 강화(Enhancement), 솔루션 집계(Aggregation)의 세 단계로 분리하여 각 구성 요소의 역할을 체계적으로 분석할 수 있는 프레임워크를 제공한다.

PRM 가이드 기반 추론 알고리즘 PRISM 제안

Process Reward Model(PRM)의 단계별 점수를 에너지 함수로 활용하여, 추론 후보들을 정답 가능성이 높은 영역으로 이동시키는 MCMC 스타일의 추론 알고리즘을 개발했다.

확률적 정제 및 리샘플링 메커니즘 도입

단순한 다시 쓰기가 아니라 Metropolis-Hastings 스타일의 수락/거절 규칙과 유효 샘플 크기 기반의 리샘플링을 결합하여 추론의 다양성을 유지하면서도 정확도를 높였다.

수학 및 과학 벤치마크에서의 압도적 효율성 입증

AIME25(90.0%), HMMT25(75.4%) 등 고난도 벤치마크에서 gpt-oss-20b 모델이 6배 더 큰 120b 모델의 성능을 능가하거나 대등한 수준임을 확인했다.

핵심 아이디어 이해하기

Transformer 기반 언어 모델은 문장을 생성할 때 이전 토큰들에 의존하는 자기회귀(Autoregressive) 방식을 사용한다. 이 과정에서 중간 단계에 작은 논리적 오류가 발생하면 이후의 모든 추론이 오염되는 '오류 전파' 문제가 발생하며, 단순히 여러 번 샘플링하여 다수결을 따르는 방식은 정답이 소수인 어려운 문제에서 한계를 보인다.

PRISM은 이 문제를 해결하기 위해 추론 과정을 물리적인 '에너지 지형(Energy Landscape)'에서의 입자 이동으로 해석한다. 각 추론 단계의 타당성을 평가하는 PRM 점수를 에너지로 정의하고, 낮은 점수(높은 에너지)를 가진 추론 경로는 도태시키고 높은 점수(낮은 에너지)를 가진 경로로 후보들을 집중시킨다. 이는 마치 필터가 불순물을 걸러내듯, 추론의 흐름 속에서 오답의 징후를 포착하여 정답의 방향으로 궤도를 수정하는 원리이다.

결과적으로 PRISM은 무작위적인 다시 쓰기가 아니라, 수학적으로 검증된 확률적 전이를 통해 정답 후보군을 진화시킨다. 이를 통해 초기 생성된 답변들 중에 정답이 거의 없는 최악의 상황에서도, 단계별 피드백을 바탕으로 정답을 찾아가는 '부트스트래핑(Bootstrapping)' 능력을 보여주며 추론의 신뢰성을 획기적으로 높인다.

방법론

PRISM은 크게 스코어링(Scoring), 리샘플링(Resampling), 확률적 정제(Stochastic Refinement)의 세 단계로 구성된 반복 루프를 수행한다. 먼저 스코어링 단계에서는 PRM을 사용하여 각 추론 경로 $\tau$ 의 단계별 피드백 $fb$ 를 생성하고, 이를 결정론적 규칙을 통해 0에서 1 사이의 스칼라 점수 $s(\tau)$ 로 변환한다.

리샘플링 단계에서는 인구의 다양성을 유지하기 위해 유효 샘플 크기(ESS)를 계산한다. 모든 후보의 가중치 $w_i$ 가 주어질 때 $(\sum w_i)^2 / \sum w_i^2$ 를 계산하여, 가중치가 특정 후보에 과도하게 쏠려 ESS 값이 임계치 이하로 떨어지면 고득점 후보를 복제하고 저득점 후보를 제거하여 연산 자원을 유망한 경로에 재배치한다.

확률적 정제 단계는 Metropolis-Hastings 알고리즘에서 영감을 받은 전이 과정을 거친다. 현재 경로 $\tau$ 에서 수정 제안 $\tau'$ 가 생성되면, 수락 확률 $A = \min(1, (s(\tau')/s(\tau))^{1/T_{smc}})$ 를 계산한다. [현재 점수 대비 제안 점수의 비율을 입력으로] → [온도 매개변수 $T_{smc}$ 로 거듭제곱 연산을 수행해] → [0에서 1 사이의 확률값을 얻고] → [이 값이 높을수록 더 나은 추론으로 판단하여 수락함]으로써 방향성 있는 오류 수정을 구현한다.

마지막으로 솔루션 집계 단계에서는 단순 빈도 기반의 다수결 대신 PRM 점수 투표(PRM-score Vote)를 사용한다. 각 고유 답변 $a$ 에 대해 해당 답변을 지지하는 모든 경로의 PRM 점수를 합산하여 $S(a) = \sum s(\tau_i)$ 를 계산하고, 이 값이 가장 높은 답변을 최종 선택함으로써 논리적 일관성이 높은 결과를 도출한다.

주요 결과

메인 벤치마크 결과, gpt-oss-20b 모델에 PRISM을 적용했을 때 AIME25에서 90.0%, HMMT25에서 75.4%, GPQA Diamond에서 71.4%의 정확도를 기록했다. 이는 동일 모델의 제로샷 성능(AIME25 58.9%)을 압도할 뿐만 아니라, 6배 더 큰 gpt-oss-120b 모델의 성능(77.8%)까지 넘어서는 수치이다.

효율성 분석 측면에서 PRISM은 연산 비용 대비 정확도 곡선인 파레토 최전선(Pareto Frontier)에 위치함을 확인했다. 기존의 에이전트 기반 토론(Agentic Debate)이나 재귀적 자기 집계(Recursive Self-Aggregation) 방식이 많은 토큰을 소비하면서도 성능 향상이 미미하거나 불안정했던 것과 달리, PRISM은 추가 연산을 정확도로 가장 효율적으로 전환하는 모습을 보였다.

정제 역량 분석(NetFlip) 결과, PRISM은 오답을 정답으로 바꾸는 비율이 정답을 오답으로 망가뜨리는 비율보다 월등히 높은 양(+)의 값을 유지했다. 특히 초기 후보군에 정답이 거의 없는 '저정확도 구간'에서도 다른 방법론들보다 훨씬 높은 회복 탄력성을 보여주며, 단계별 검증 신호가 추론의 안정성을 보장함을 입증했다.

실무 활용

PRISM은 고도의 논리적 사고가 필요한 수학, 과학, 코딩 분야의 AI 서비스에 즉시 적용 가능한 추론 알고리즘이다. 모델의 크기를 키우지 않고도 추론 시간(Inference-time)의 연산을 최적화하여 성능을 극대화할 수 있다는 점이 실무적 강점이다.

복잡한 수학적 증명 및 올림피아드 수준의 문제 해결 시스템
과학적 가설 검증 및 논리적 추론 보조 도구
소프트웨어 코드의 논리적 오류 탐지 및 자동 수정 에이전트
제한된 하드웨어 자원에서 거대 모델급 성능을 내야 하는 온디바이스 AI 추론

기술 상세

PRISM은 DEEPTHINK 프레임워크를 기능적으로 분해하여 '인구 정제(Population Enhancement)' 단계의 병목 현상을 해결하는 데 집중한다. 기존 방식들이 전체 답변을 다시 쓰는 'Stochastic Rewriting'에 의존했다면, PRISM은 PRM 점수를 에너지 함수로 정의하여 추론 경로를 최적화하는 'Structured Population Optimization'으로 패러다임을 전환했다.

수학적 기반으로 MCMC(Markov Chain Monte Carlo)의 Metropolis-Hastings 수락 규칙을 차용하여, 점수가 낮아지는 이동(Downhill move)도 낮은 확률로 허용함으로써 지역 최적점 탈출과 탐색(Exploration)의 균형을 맞춘다. 또한 'Clone Capping'과 'Conflict Arbitration' 같은 실무적 안전장치를 도입하여 특정 답변으로의 과도한 쏠림이나 고득점 오답 간의 충돌을 방지한다.

구현 측면에서는 생성기(Generator), 검증기(Verifier), 반복기(Iterator), 비교기(Comparator)를 동일한 백본 모델에서 유도하거나 서로 다른 크기의 모델로 조합할 수 있는 유연한 구조를 가진다. 실험을 통해 검증기(Verifier)의 성능이 생성기보다 강할 때 PRISM의 이득이 극대화됨을 확인했으며, 이는 추론 스케일링 법칙(Inference Scaling Laws)의 새로운 방향성을 제시한다.

한계점

PRISM은 단계별 스칼라 신호에 의존하므로, PRM의 품질이 전체 성능의 상한선을 결정한다. 또한 추론 과정이 명확한 단계(Step)로 구분되지 않는 도메인에서는 단계별 스코어링의 효과가 반감될 수 있으며, 최적의 세그멘테이션 기법에 대한 추가 연구가 필요하다.

키워드

PRM(프로세스 보상 모델)DEEPTHINK(심층 추론)MCMC(마르코프 체인 몬테카를로)Inference Scaling(추론 스케일링)Mathematical Reasoning(수학적 추론)