V1: 병렬 추론 모델을 위한 생성 및 자기 검증의 통합 프레임워크

왜 중요한가

LLM이 여러 답변 후보 중 정답을 골라내는 '검증' 단계의 정확도를 획기적으로 높였습니다. 기존의 개별 점수 매기기 방식이 가진 불확실성을 두 후보 간의 직접 비교(Pairwise)로 해결하여, 추가적인 모델 크기 확장 없이도 코딩과 수학 문제 해결 능력을 크게 개선했습니다.

핵심 기여

V1-Infer 알고리즘 개발

스위스 시스템 토너먼트 방식을 도입하여 불확실성이 높은 답변 쌍에 검증 연산을 집중시키는 효율적인 추론 알고리즘을 구현함.

V1-PairRL 강화학습 프레임워크

단일 모델을 생성자와 쌍별 검증자로 동시에 학습시키는 온라인 공동 진화(Co-evolving) 목적 함수를 설계하여 모델의 자가 개선 능력을 극대화함.

Pairwise 검증의 우위 입증

독립적인 점수 산출(Pointwise)보다 쌍별 비교 방식이 모델의 내재된 검증 능력을 더 잘 끌어내며 교정 붕괴 문제를 완화함을 증명함.

핵심 아이디어 이해하기

LLM의 성능을 높이기 위해 여러 개의 답변을 생성하고 그중 하나를 고르는 '병렬 추론' 방식이 널리 쓰인다. 하지만 기존 방식은 각 답변에 개별적으로 점수를 매기는데, 이는 비교 대상이 없어 점수 기준이 모호해지는 '교정 붕괴' 문제를 일으킨다. 마치 무게를 모르는 물건들의 무게를 각각 추측하는 것보다, 두 물건을 양손에 들고 어느 쪽이 더 무거운지 비교하는 것이 훨씬 정확한 것과 같은 원리다. V1은 모델이 두 답변을 직접 대조하게 함으로써 미세한 논리적 차이를 식별하게 한다. 이를 위해 기초적인 Softmax 확률 값에 의존하는 대신, 두 후보 간의 상대적 우위를 가리는 Pairwise Ranking 방식을 채택했다. 또한 학습 과정에서 생성 성능과 검증 성능이 함께 진화하도록 설계하여, 모델이 자신이 만든 답변의 오류를 스스로 더 잘 찾아낼 수 있는 선순환 구조를 구축했다.

방법론

V1-Infer는 모든 후보 쌍을 비교하는 비용을 줄이기 위해 두 단계 전략을 사용한다. 첫째, '토폴로지 커버리지' 단계에서 모든 솔루션이 최소한의 비교를 거치도록 무작위 대진을 구성한다. 둘째, '스위스 리파인먼트' 단계에서 점수가 비슷한 후보끼리 대결시켜 정보 획득량을 극대화한다. V1-PairRL은 GRPO를 기반으로 생성 보상과 검증 보상을 동시에 최적화한다. 검증 보상은 모델이 예측한 점수 $v_i$ 와 실제 정답 여부 $y_i$ 를 입력으로 받아 그 차이가 0.2 이하일 때만 보상을 주는 연산을 수행한다. 이를 통해 모델이 모호한 중간 점수로 도망가는 '안전빵 전략'을 방지하고 확신 있는 판단을 내리도록 유도한다.

주요 결과

CodeContests 벤치마크에서 GPT-OSS-20B 모델의 성능을 66.06%에서 73.33%로 7.3%p 향상시켰으며, 수학 문제인 HMMT에서는 10.0%p의 성능 향상을 기록했다. V1-Infer는 기존의 재귀적 자기 집계(RSA) 방식보다 훨씬 적은 모델 호출 횟수로도 더 높은 정확도를 달성했다. 특히 LiveCodeBench-v6에서 단 48회의 검증 호출만으로 76%의 Pass@1을 기록하며 높은 효율성을 입증했다. 또한 V1-PairRL은 표준 강화학습 대비 테스트 시간 확장 효율을 7~9% 개선하는 성과를 보였다.

실무 활용

복잡한 코딩이나 수학 문제 해결이 필요한 AI 에이전트 시스템에서 답변의 신뢰도를 높이는 데 즉시 적용 가능합니다.

자율 코딩 에이전트의 최적 코드 패치 선택 시스템
복잡한 수학 및 논리 문제 풀이 서비스의 정답 검증 엔진
LLM 기반 자동 데이터 라벨링의 품질 관리 프로세스

기술 상세

V1-PairRL은 온라인 공동 진화 학습을 특징으로 한다. 생성 모델이 발전함에 따라 검증 모델이 평가해야 할 데이터의 분포도 함께 변하므로, 실시간으로 생성된 샘플을 학습에 사용하여 분포 불일치 문제를 해결한다. 보상 해킹을 방지하기 위해 '엄격한 페어링 전략'을 도입하여, 검증 학습 시 반드시 하나 이상의 정답이 포함된 쌍만 사용함으로써 모델이 모든 답변을 오답으로 처리하고 보상을 챙기는 루프를 차단한다. 또한 희소성 임계값을 적용한 보상 함수는 모델이 0.5 근처의 점수를 출력할 때 보상을 0으로 만들어, 변별력 없는 판단을 지양하고 극단적인 정답/오답 구분을 강제한다.

한계점

본 연구는 주로 코드 생성 및 수학 추론과 같이 정답이 명확히 정의된 도메인에 집중되어 있으며, 주관적인 판단이 개입되는 일반 텍스트 생성 영역에서의 Pairwise 검증 효과에 대해서는 추가적인 검증이 필요합니다.

키워드

Test-time Scaling(테스트 시간 확장)Self-Verification(자기 검증)Pairwise Ranking(쌍별 순위 지정)Reinforcement Learning(강화학습)Parallel Reasoning(병렬 추론)