핵심 요약
대형 언어 모델이 복잡한 문제를 풀 때 여러 경로를 동시에 탐색하면 비용이 기하급수적으로 증가하는데, 이 논문은 틀린 경로를 초기에 잘라내어 비용을 70% 이상 아끼는 방법을 제시한다. 특히 모델 내부의 신호를 직접 활용하여 별도의 외부 모델 없이도 매우 빠르고 정확하게 오류를 잡아낸다.
왜 중요한가
대형 언어 모델이 복잡한 문제를 풀 때 여러 경로를 동시에 탐색하면 비용이 기하급수적으로 증가하는데, 이 논문은 틀린 경로를 초기에 잘라내어 비용을 70% 이상 아끼는 방법을 제시한다. 특히 모델 내부의 신호를 직접 활용하여 별도의 외부 모델 없이도 매우 빠르고 정확하게 오류를 잡아낸다.
관련 Figure

초기에 오류가 발생한 경로를 즉시 중단함으로써 연산 비용을 절감하고, 오답이 최종 집계에 섞이는 것을 방지하여 정답률을 높이는 원리를 시각적으로 보여준다.
표준 병렬 추론과 경로 가지치기가 적용된 추론의 비교 다이어그램
핵심 기여
경로 가지치기 통합 분류 체계 제안
기존의 파편화된 경로 가지치기 연구들을 신호원(내부 vs 외부)과 학습 가능성(학습 가능 vs 고정)이라는 두 가지 차원으로 분류하는 최초의 체계적인 taxonomy를 구축했다.
STOP(Super TOken for Pruning) 방법론 개발
모델 내부의 풍부한 정보를 활용하면서도 가벼운 LoRA 어댑터를 통해 학습 가능한 내부 신호 기반의 가지치기 모듈인 STOP을 설계했다.
추론 효율성 및 정확도 동시 개선
AIME24 벤치마크에서 1.5B 모델 기준 토큰 소비량을 73% 줄이면서도 정확도를 30.1%에서 37.9%로 높이는 등 성능과 비용의 트레이드오프를 획기적으로 개선했다.
경험적 가이드라인 및 스케일링 법칙 도출
컴퓨팅 예산, 작업 복잡도, 문구 길이에 따른 최적의 경로 유지 비율을 결정할 수 있는 파워 로우 기반의 수식을 정립하여 실무 적용을 돕는다.
관련 Figure

신호의 출처(내부/외부)와 학습 가능 여부에 따라 기존 기술들을 분류하고, 이 논문이 제안하는 STOP이 속한 Type IV 영역의 독창성을 설명한다.
경로 가지치기 방법론의 4가지 유형 분류 체계
핵심 아이디어 이해하기
기존의 병렬 추론 방식은 여러 개의 답변 후보를 생성한 뒤 다수결로 정답을 고르는데, 이 과정에서 초기에 오류가 발생한 '죽은 경로'들도 끝까지 생성되느라 막대한 연산 자원이 낭비된다. Transformer의 Self-Attention 구조에서 각 토큰은 이전 문맥의 정보를 담고 있지만, 단순히 텍스트 결과물만 봐서는 모델이 얼마나 확신을 가지고 있는지 알기 어렵다.
이 논문은 모델 내부의 고차원적인 숨겨진 상태(hidden states)에 이미 오류 발생 징후가 포함되어 있다는 점에 착안했다. [STOP]이라는 특수 토큰을 문장 끝에 붙여 모델이 지금까지 생성한 내용이 정답으로 이어질 가능성이 높은지 스스로 평가하게 만든다. 이는 마치 숙련된 검토자가 글의 서론만 보고도 논리적 오류를 직감하는 것과 유사한 원리다.
결과적으로 틀린 경로는 초기에 제거되어 연산량이 줄어들 뿐만 아니라, 최종 답변을 고를 때 오답 후보들이 미리 걸러지므로 전체적인 정답률이 오히려 상승하는 효과를 거둔다. 이는 N²에 비례하는 연산 부담을 획기적으로 줄여주는 실용적인 접근이다.
방법론
전체 프로세스는 Launch, Check, Resume의 3단계 파이프라인으로 구성된다. 먼저 Launch 단계에서는 모든 경로에 대해 일정 길이(Lprefix)만큼의 문구를 생성하고, 이때 생성된 Key-Value 행렬을 메모리(KV Cache)에 저장한다.
Check 단계에서는 저장된 KV Cache 뒤에 학습 가능한 [STOP] 토큰을 추가로 입력한다. [STOP] 토큰의 hidden state h_i를 입력으로 받아 [h_i → LoRA 어댑터 → 선형 분류 헤드 → 스칼라 점수 s_i] 순으로 연산하여 각 경로의 성공 확률을 계산한다. 이때 기존 모델의 파라미터는 고정(frozen)한 채 가벼운 LoRA 어댑터만 사용하여 연산 오버헤드를 최소화한다.
Resume 단계에서는 계산된 점수를 바탕으로 상위 k개의 유망한 경로만 남기고 나머지는 메모리에서 즉시 삭제한다. 살아남은 경로들만 생성을 재개하여 최종 답변을 도출한다. 학습 시에는 몬테카를로 추정을 통해 각 문구가 실제로 정답에 도달할 확률을 정답 레이블로 사용하여 Binary Cross-Entropy 손실 함수로 최적화한다.
관련 Figure

KV Cache를 재사용하여 추가 연산 없이 [STOP] 토큰만으로 각 경로의 점수를 매기고 유망한 경로만 골라 생성을 재개하는 구체적인 구현 방식을 묘사한다.
STOP의 3단계 추론 프로세스(Launch-Check-Resume) 상세 구조
주요 결과
DeepSeek-R1-Distill-Qwen-1.5B 모델을 사용한 AIME24 실험에서, 가지치기를 하지 않았을 때보다 토큰 사용량을 73.88% 줄이면서도 정확도는 30.10%에서 37.92%로 크게 향상되었다. 이는 외부 모델을 사용하는 방식(Type II)이나 단순 확률값 기반 방식(Type III)보다 월등히 높은 효율성이다.
AIME25 벤치마크에서도 GPT-OSS-20B 모델에 적용했을 때, 고정된 컴퓨팅 예산 하에서 정확도를 84%에서 약 90%까지 끌어올리는 성능을 보였다. 특히 모델 크기가 커질수록, 그리고 문제의 난이도가 높을수록 STOP의 효율성이 더 두드러지는 경향이 확인되었다.
추론 지연 시간 분석 결과, STOP 모듈 추가로 인한 오버헤드는 단 0.59%에 불과했다. 이는 기존의 텍스트 기반 외부 검증 모델이 3.37%의 오버헤드를 발생시키는 것과 비교했을 때 매우 가벼운 수준이며, KV Cache를 재사용하는 설계 덕분에 중복 연산을 완벽히 제거했다.
기술 상세
STOP은 LRM(Large Reasoning Model)의 내부 상태를 직접 활용하는 Type IV(Internal & Learnable) 방식의 최초 구현체이다. 아키텍처적으로는 기존 모델의 어휘 사전에 [STOP] 토큰을 추가하고, 이 토큰이 처리될 때만 활성화되는 전용 LoRA 어댑터와 분류 헤드를 결합했다. 이는 모델의 원래 생성 능력을 전혀 해치지 않으면서도 검증 기능을 모듈식으로 추가할 수 있게 한다.
수학적 기반으로서, 문구 p_i의 잠재적 가치를 s_i = S(p_i | x, Theta)로 정의하고, 이를 최대화하는 동시에 생성 토큰 수를 최소화하는 것을 목표로 한다. 학습 데이터 구축 시에는 각 문구에서 32개의 무작위 경로를 생성하여 성공률을 계산하는 몬테카를로 추정 방식을 사용하여, 0 또는 1의 딱딱한 레이블(hard label)보다 분산이 낮은 부드러운 레이블(soft label)을 제공함으로써 학습의 안정성을 높였다.
또한, 최적의 경로 유지 비율(gamma)을 결정하기 위해 컴퓨팅 예산(C), 문구 길이(Lprefix), 작업 길이(Ltask) 간의 관계를 파워 로우(power-law) 수식으로 정립했다. 실험 결과, 문맥이 길어질수록 모델이 경로의 유망성을 더 정확히 판단할 수 있어 더 공격적인 가지치기(낮은 gamma)가 가능하다는 점을 입증했다.
한계점
현재 연구는 고정된 위치(예: 2048 토큰 지점)에서 한 번만 가지치기를 수행하는 단일 단계 방식에 집중하고 있다. 여러 단계에서 순차적으로 경로를 줄여나가는 다단계 가지치기나, 고정된 위치가 아닌 논리적 흐름에 따라 동적으로 체크포인트를 설정하는 방식에 대해서는 추가 연구가 필요하다.
실무 활용
병렬 추론을 사용하는 모든 LLM 서비스에서 추론 비용을 70% 이상 절감하면서도 품질을 높일 수 있는 실용적인 기술이다.
- 수학 및 코딩 문제 해결을 위한 병렬 추론 파이프라인의 비용 최적화
- 제한된 GPU 메모리 환경에서 더 많은 추론 경로를 탐색해야 하는 경우
- 실시간 응답이 중요한 에이전트 시스템에서의 조기 오류 감지 및 경로 수정
코드 공개 여부: 공개
코드 저장소 보기키워드
코드 예제
[User Prompt] [Generated Reasoning Prefix] [STOP]STOP 모듈이 전체 문맥을 다시 인코딩하지 않고 기존 KV Cache에 특수 토큰을 추가하여 점수를 계산하는 입력 메커니즘
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.