추론 모델이 커버리지를 잃는 이유? 데이터와 분기점의 역할

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

데이터 구조가 모델의 추론 경로 다양성에 직접 영향을 준다. SFT 및 RLVR 하에서 pass@1은 향상되는 반면 pass@k는 감소하는 현상은 데이터의 decision point가 원인일 수 있음을 시사한다. 해결책은 데이터 설계와 디코딩 전략에 초점을 맞춘다.

왜 중요한가

데이터 구조가 모델의 추론 경로 다양성에 직접 영향을 준다. SFT 및 RLVR 하에서 pass@1은 향상되는 반면 pass@k는 감소하는 현상은 데이터의 decision point가 원인일 수 있음을 시사한다. 해결책은 데이터 설계와 디코딩 전략에 초점을 맞춘다.

핵심 기여

Fork-in-the-road Hypothesis

다수의 유효한 추론 경로가 존재하는 상황에서 학습 데이터가 근거를 명시하지 않는 분기점에서 모델이 하나의 경로로 치우치게 학습하여 대안 경로가 소실되는 현상을 제시한다.

데이터-중심 실험 설계

그래프 브랜칭과 추론 모드 선택이라는 두 가지 제어 가능한 케이스 스터디를 통해 분기점이 커버리지 축소에 미치는 영향을 분석한다.

Data diversity 설계의 영향

문제별 커버리지와 데이터 수준의 다양성 설계가 커버리지 소실에 미치는 차이를 실험으로 보인다.

Prefix perturbation으로 회복 가능성

초기 프롬프트 프리픽스의 Top-k 다양성 샘플링으로 추론 모드를 다양하게 유도해 post-training 이후 커버리지 손실을 부분적으로 회복시킨다.

RLVR에서도 동일 현상

RLVR에서도 Forward 데이터에서 커버리지 축소가 나타나며, 이는 데이터 구조가 커버리지 손실의 근본 원인임을 시사한다.

핵심 아이디어 이해하기

단락 1. 추론 문제 해결은 여러 후보 경로가 공존하는 탐색적 과정이다. ground-truth reasoning이 매번 주어지지 않으므로 Survivorship bias로 인해 모델은 하나의 경로에 집중하는 경향을 보인다. 단락 2. Forks-in-the-road 가정은 분기점에서 다수의 합법적 경로 중 하나를 강하게 선택하도록 학습 정보를 압박한다는 것이다. 이로써 대체 경로는 점차 드러나지 않게 되고 커버리지가 감소한다. 단락 3. 해결책은 데이터 설계와 디코딩 전략에 있으며, per-problem 커버리지 관리 및 초기 토큰 다변화가 커버리지를 회복하는 데 기여한다. 단락 4. 이 데이터-중심 관점은 SFT와 RLVR 모두에서 커버리지 소실의 보편적 현상임을 뒷받침한다.

방법론

그래프 네비게이션은 분기점을 가진 star 그래프를 이용해 Forward(분기점 존재)와 Reverse(w/o DP) 조건을 비교한다. 데이터와 모델은 Qwen-2.5-0.5B, EvoLM-1B/4B 등으로 구성하고 SFT Epoch에 따라 pass@k를 측정한다. Reasoning Mode Selection은 NL vs Code 모드, 데이터 수준 diversity vs 문제 수준 diversity 설계의 차이가 커버리지에 미치는 영향을 분석한다. Data Diversity 설계에선 문제당 하나의 모드 해결 vs 문제당 두 모드를 포함하는 데이터 설계의 차이를 비교한다. Prefix Perturbation은 초기 프리픽스를 Top-k에서 샘플링하는 인퍼런스 시 개입으로 커버리지를 회복하는지 실험한다. RLVR은 GRPO 기법을 적용해 Forward/Reverse 데이터로 학습했을 때 커버리지가 어떻게 변하는지 확인한다.

주요 결과

주요 벤치마크에서 Forward 설정의 pass@k은 증가하다가 k가 커질수록 감소하는 경향을 보이며, Reverse w/o DP 설정은 빠르게 커버리지가 안정적으로 유지된다. 데이터 수준 다양성은 특정 모드에 대한 확신을 강화해 커버리지를 감소시키는 반면, 문제 수준 다양성은 보다 균형 잡힌 모드 선택을 유도해 커버리지를 보존한다. Top-k 프리픽스 샘플링은 post-training 이후에도 pass@k를 회복시키며, 초기 프롬트 토픽의 민감도와 커버리지 손실 간의 관계를 시사한다.

기술 상세

아키텍처 수준에서의 제약이 아닌 데이터 구성과 decoding 전략의 차이가 커버리지에 미치는 영향을 분석한다. (1) Graph Navigation: star graph의 분기점에서 Forward/Reverse 데이터 독립 비교. (2) Reasoning Mode Selection: 데이터 수준 다양성과 문제 수준 다양성의 차이가 NL/Code 모드 선택에 미치는 영향 분석. (3) Prefix Perturbation: 초기 프리픽스의 Top-k 샘플링으로 추론 모드를 다양하게 유도하고 커버리지 회복 여부 확인. (4) RLVR: GRPO 기반 RL 정책 최적화 시에도 Forward 데이터에서 커버리지 축소 현상이 재현되는지 확인. (5) Ablation: 분기점 제거/재구성 여부에 따른 커버리지 변화 관찰.} ,

실무 활용

데이터 설계와 디코딩 전략의 조합으로 추론 모델의 커버리지 손실을 억제하거나 회복할 수 있다.

데이터 수집 시 per-problem 커버리지 관리로 다중 경로 학습 강화
인퍼런스 시 Top-k 프리픽스 샘플링으로 커버리지 회복
분기점이 많은 문제에서 NL/코드 모드의 균형 잡힌 학습 유도
RLVR 도입 시 분기점 구성에 따른 커버리지 변화 분석

코드 공개 여부: 공개

코드 저장소 보기

키워드

forks-in-the-roadcoverage shrinkagepass@kSFTRLVRdata diversityprefix perturbationdecoding diversity

추가 이미지 분석

Chart
데이터 수준 vs 문제 수준의 차이가 모드 선택과 커버리지에 미치는 영향을 보여준다.
데이터 다양성 설계의 효과를 비교하는 그래프