TL;DR
데이터 구조가 모델의 추론 경로 다양성에 직접 영향을 준다. SFT 및 RLVR 하에서 pass@1은 향상되는 반면 pass@k는 감소하는 현상은 데이터의 decision point가 원인일 수 있음을 시사한다. 해결책은 데이터 설계와 디코딩 전략에 초점을 맞춘다.
왜 중요한가
데이터 구조가 모델의 추론 경로 다양성에 직접 영향을 준다. SFT 및 RLVR 하에서 pass@1은 향상되는 반면 pass@k는 감소하는 현상은 데이터의 decision point가 원인일 수 있음을 시사한다. 해결책은 데이터 설계와 디코딩 전략에 초점을 맞춘다.
핵심 기여
Fork-in-the-road Hypothesis
다수의 유효한 추론 경로가 존재하는 상황에서 학습 데이터가 근거를 명시하지 않는 분기점에서 모델이 하나의 경로로 치우치게 학습하여 대안 경로가 소실되는 현상을 제시한다.
데이터-중심 실험 설계
그래프 브랜칭과 추론 모드 선택이라는 두 가지 제어 가능한 케이스 스터디를 통해 분기점이 커버리지 축소에 미치는 영향을 분석한다.
Data diversity 설계의 영향
문제별 커버리지와 데이터 수준의 다양성 설계가 커버리지 소실에 미치는 차이를 실험으로 보인다.
Prefix perturbation으로 회복 가능성
초기 프롬프트 프리픽스의 Top-k 다양성 샘플링으로 추론 모드를 다양하게 유도해 post-training 이후 커버리지 손실을 부분적으로 회복시킨다.
RLVR에서도 동일 현상
RLVR에서도 Forward 데이터에서 커버리지 축소가 나타나며, 이는 데이터 구조가 커버리지 손실의 근본 원인임을 시사한다.
핵심 아이디어 이해하기
단락 1. 추론 문제 해결은 여러 후보 경로가 공존하는 탐색적 과정이다. ground-truth reasoning이 매번 주어지지 않으므로 Survivorship bias로 인해 모델은 하나의 경로에 집중하는 경향을 보인다. 단락 2. Forks-in-the-road 가정은 분기점에서 다수의 합법적 경로 중 하나를 강하게 선택하도록 학습 정보를 압박한다는 것이다. 이로써 대체 경로는 점차 드러나지 않게 되고 커버리지가 감소한다. 단락 3. 해결책은 데이터 설계와 디코딩 전략에 있으며, per-problem 커버리지 관리 및 초기 토큰 다변화가 커버리지를 회복하는 데 기여한다. 단락 4. 이 데이터-중심 관점은 SFT와 RLVR 모두에서 커버리지 소실의 보편적 현상임을 뒷받침한다.
관련 Figure

연구의 핵심 아이디어인 결정 포인트를 직관적으로 보여주며, 데이터구조가 어떻게 커버리지에 영향을 주는지 시각적으로 보완한다.
Forks-in-the-road 컨셉을 시각화한 인포그래픽으로 분기점의 의미를 직관적으로 전달한다.

Decision point에서의 confident한 선택이 대안 경로를 억압하는 현상을 설명하는 근거를 제공한다.
Decision points에서의 모델 확신도 변화를 보여주는 그래프

초기 토큰의 미묘한 변화가 추론 모드와 정답에 큰 차이를 만들어 냄을 시사한다.
프리픽스 토큰 조작이 Reasoning 변화에 미치는 영향의 예시
방법론
그래프 네비게이션은 분기점을 가진 star 그래프를 이용해 Forward(분기점 존재)와 Reverse(w/o DP) 조건을 비교한다. 데이터와 모델은 Qwen-2.5-0.5B, EvoLM-1B/4B 등으로 구성하고 SFT Epoch에 따라 pass@k를 측정한다. Reasoning Mode Selection은 NL vs Code 모드, 데이터 수준 diversity vs 문제 수준 diversity 설계의 차이가 커버리지에 미치는 영향을 분석한다. Data Diversity 설계에선 문제당 하나의 모드 해결 vs 문제당 두 모드를 포함하는 데이터 설계의 차이를 비교한다. Prefix Perturbation은 초기 프리픽스를 Top-k에서 샘플링하는 인퍼런스 시 개입으로 커버리지를 회복하는지 실험한다. RLVR은 GRPO 기법을 적용해 Forward/Reverse 데이터로 학습했을 때 커버리지가 어떻게 변하는지 확인한다.
관련 Figure

forks 구조와 모드 선택이 실험 설계에서 어떻게 반영되는지 보여준다. 본 연구의 방법론 섹션을 보강한다.
(a) Graph Branching, (b) Reasoning Mode Selection 두 가지 주제의 다이어그램

데이터 구성 차이가 커버리지에 미치는 영향을 보강한다.
Forward vs Reverse에서의 모델 경향 차이를 보여주는 그래프
주요 결과
주요 벤치마크에서 Forward 설정의 pass@k은 증가하다가 k가 커질수록 감소하는 경향을 보이며, Reverse w/o DP 설정은 빠르게 커버리지가 안정적으로 유지된다. 데이터 수준 다양성은 특정 모드에 대한 확신을 강화해 커버리지를 감소시키는 반면, 문제 수준 다양성은 보다 균형 잡힌 모드 선택을 유도해 커버리지를 보존한다. Top-k 프리픽스 샘플링은 post-training 이후에도 pass@k를 회복시키며, 초기 프롬트 토픽의 민감도와 커버리지 손실 간의 관계를 시사한다.
관련 Figure

그래프 기반 실험의 핵심 결과를 시각화하며, 커버리지 축소의 시계열 특성을 보여준다.
Pass@k 그래프를 Epoch별로 비교하는 그래프
기술 상세
아키텍처 수준에서의 제약이 아닌 데이터 구성과 decoding 전략의 차이가 커버리지에 미치는 영향을 분석한다. (1) Graph Navigation: star graph의 분기점에서 Forward/Reverse 데이터 독립 비교. (2) Reasoning Mode Selection: 데이터 수준 다양성과 문제 수준 다양성의 차이가 NL/Code 모드 선택에 미치는 영향 분석. (3) Prefix Perturbation: 초기 프리픽스의 Top-k 샘플링으로 추론 모드를 다양하게 유도하고 커버리지 회복 여부 확인. (4) RLVR: GRPO 기반 RL 정책 최적화 시에도 Forward 데이터에서 커버리지 축소 현상이 재현되는지 확인. (5) Ablation: 분기점 제거/재구성 여부에 따른 커버리지 변화 관찰.} ,
실무 활용
데이터 설계와 디코딩 전략의 조합으로 추론 모델의 커버리지 손실을 억제하거나 회복할 수 있다.
- 데이터 수집 시 per-problem 커버리지 관리로 다중 경로 학습 강화
- 인퍼런스 시 Top-k 프리픽스 샘플링으로 커버리지 회복
- 분기점이 많은 문제에서 NL/코드 모드의 균형 잡힌 학습 유도
- RLVR 도입 시 분기점 구성에 따른 커버리지 변화 분석
코드 공개 여부: 공개
코드 저장소 보기키워드
추가 이미지 분석

데이터 수준 vs 문제 수준의 차이가 모드 선택과 커버리지에 미치는 영향을 보여준다.
데이터 다양성 설계의 효과를 비교하는 그래프
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.