핵심 요약
LLM이 여러 답변 후보 중 정답을 골라내는 '검증' 단계의 정확도를 획기적으로 높였습니다. 기존의 개별 점수 매기기 방식이 가진 불확실성을 두 후보 간의 직접 비교(Pairwise)로 해결하여, 추가적인 모델 크기 확장 없이도 코딩과 수학 문제 해결 능력을 크게 개선했습니다.
왜 중요한가
LLM이 여러 답변 후보 중 정답을 골라내는 '검증' 단계의 정확도를 획기적으로 높였습니다. 기존의 개별 점수 매기기 방식이 가진 불확실성을 두 후보 간의 직접 비교(Pairwise)로 해결하여, 추가적인 모델 크기 확장 없이도 코딩과 수학 문제 해결 능력을 크게 개선했습니다.
핵심 기여
V1-Infer 알고리즘 개발
스위스 시스템 토너먼트 방식을 도입하여 불확실성이 높은 답변 쌍에 검증 연산을 집중시키는 효율적인 추론 알고리즘을 구현함.
V1-PairRL 강화학습 프레임워크
단일 모델을 생성자와 쌍별 검증자로 동시에 학습시키는 온라인 공동 진화(Co-evolving) 목적 함수를 설계하여 모델의 자가 개선 능력을 극대화함.
Pairwise 검증의 우위 입증
독립적인 점수 산출(Pointwise)보다 쌍별 비교 방식이 모델의 내재된 검증 능력을 더 잘 끌어내며 교정 붕괴 문제를 완화함을 증명함.
핵심 아이디어 이해하기
LLM의 성능을 높이기 위해 여러 개의 답변을 생성하고 그중 하나를 고르는 '병렬 추론' 방식이 널리 쓰인다. 하지만 기존 방식은 각 답변에 개별적으로 점수를 매기는데, 이는 비교 대상이 없어 점수 기준이 모호해지는 '교정 붕괴' 문제를 일으킨다. 마치 무게를 모르는 물건들의 무게를 각각 추측하는 것보다, 두 물건을 양손에 들고 어느 쪽이 더 무거운지 비교하는 것이 훨씬 정확한 것과 같은 원리다. V1은 모델이 두 답변을 직접 대조하게 함으로써 미세한 논리적 차이를 식별하게 한다. 이를 위해 기초적인 Softmax 확률 값에 의존하는 대신, 두 후보 간의 상대적 우위를 가리는 Pairwise Ranking 방식을 채택했다. 또한 학습 과정에서 생성 성능과 검증 성능이 함께 진화하도록 설계하여, 모델이 자신이 만든 답변의 오류를 스스로 더 잘 찾아낼 수 있는 선순환 구조를 구축했다.
방법론
V1-Infer는 모든 후보 쌍을 비교하는 비용을 줄이기 위해 두 단계 전략을 사용한다. 첫째, '토폴로지 커버리지' 단계에서 모든 솔루션이 최소한의 비교를 거치도록 무작위 대진을 구성한다. 둘째, '스위스 리파인먼트' 단계에서 점수가 비슷한 후보끼리 대결시켜 정보 획득량을 극대화한다. V1-PairRL은 GRPO를 기반으로 생성 보상과 검증 보상을 동시에 최적화한다. 검증 보상은 모델이 예측한 점수 와 실제 정답 여부 를 입력으로 받아 그 차이가 0.2 이하일 때만 보상을 주는 연산을 수행한다. 이를 통해 모델이 모호한 중간 점수로 도망가는 '안전빵 전략'을 방지하고 확신 있는 판단을 내리도록 유도한다.
주요 결과
CodeContests 벤치마크에서 GPT-OSS-20B 모델의 성능을 66.06%에서 73.33%로 7.3%p 향상시켰으며, 수학 문제인 HMMT에서는 10.0%p의 성능 향상을 기록했다. V1-Infer는 기존의 재귀적 자기 집계(RSA) 방식보다 훨씬 적은 모델 호출 횟수로도 더 높은 정확도를 달성했다. 특히 LiveCodeBench-v6에서 단 48회의 검증 호출만으로 76%의 Pass@1을 기록하며 높은 효율성을 입증했다. 또한 V1-PairRL은 표준 강화학습 대비 테스트 시간 확장 효율을 7~9% 개선하는 성과를 보였다.
기술 상세
V1-PairRL은 온라인 공동 진화 학습을 특징으로 한다. 생성 모델이 발전함에 따라 검증 모델이 평가해야 할 데이터의 분포도 함께 변하므로, 실시간으로 생성된 샘플을 학습에 사용하여 분포 불일치 문제를 해결한다. 보상 해킹을 방지하기 위해 '엄격한 페어링 전략'을 도입하여, 검증 학습 시 반드시 하나 이상의 정답이 포함된 쌍만 사용함으로써 모델이 모든 답변을 오답으로 처리하고 보상을 챙기는 루프를 차단한다. 또한 희소성 임계값을 적용한 보상 함수는 모델이 0.5 근처의 점수를 출력할 때 보상을 0으로 만들어, 변별력 없는 판단을 지양하고 극단적인 정답/오답 구분을 강제한다.
한계점
본 연구는 주로 코드 생성 및 수학 추론과 같이 정답이 명확히 정의된 도메인에 집중되어 있으며, 주관적인 판단이 개입되는 일반 텍스트 생성 영역에서의 Pairwise 검증 효과에 대해서는 추가적인 검증이 필요합니다.
실무 활용
복잡한 코딩이나 수학 문제 해결이 필요한 AI 에이전트 시스템에서 답변의 신뢰도를 높이는 데 즉시 적용 가능합니다.
- 자율 코딩 에이전트의 최적 코드 패치 선택 시스템
- 복잡한 수학 및 논리 문제 풀이 서비스의 정답 검증 엔진
- LLM 기반 자동 데이터 라벨링의 품질 관리 프로세스
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.