TL;DR
LLM의 Chain-of-Thought(COT) 추론은 정답 도출 전 사고를 요구해 응답 지연과 불필요한 토큰 비용을 야기한다. CopT는 draft-first 전략으로 먼저 답을 제시하고, continuous embeddings를 인퍼런스 시 verifiers로 활용하여 draft의 신뢰성을 판단한다. GSM8K, Math500, AIME24/AIME25, HumanEval 등에서 피크 정확도 최대 23% 향상과 토큰 사용량 최대 57% 절감으로 실험적으로 입증된다.
왜 중요한가
LLM의 Chain-of-Thought(COT) 추론은 정답 도출 전 사고를 요구해 응답 지연과 불필요한 토큰 비용을 야기한다. CopT는 draft-first 전략으로 먼저 답을 제시하고, continuous embeddings를 인퍼런스 시 verifiers로 활용하여 draft의 신뢰성을 판단한다. GSM8K, Math500, AIME24/AIME25, HumanEval 등에서 피크 정확도 최대 23% 향상과 토큰 사용량 최대 57% 절감으로 실험적으로 입증된다.
핵심 기여
Training-free CopT 파이프라인
Draft answer를 먼저 생성한 뒤 on-policy thinking을 조건부로 실행하는 파이프라인이다. 두-stage 구조를 통해 접근 비용을 줄이고, draft의 신뢰도에 따라 추가 사고를 유도한다.
Reliability Estimator κa
연속-임베딩과 이산-prefix 간 대조를 통해 draft의 신뢰성을 측정하는 시퀀스-레벨 reverse KL 추정기 κa를 도입한다. κa는 pθ(a|q,a<t)와 pθ(a|q,e<t)의 차이를 평균하여 Draft-Reliability를 평가한다.
On-policy Thinking의 동적 가시성 제어 κr
Draft가 불안정하다고 판단될 때 chunk 단위로 thinking을 수행하며, 각 chunk마다 κr를 계산해 draft의 노출 정도를 제어한다. mk+1 = 1(κr < τr)인 visibility 업데이트로 신뢰성 높은 정보는 노출하고 불안을 차단한다.
실험적 성과 및 학습 없이 개선
수학, 코딩, agentic 추론에서 피크 정확도 최대 23% 향상, 토큰 사용량 최대 57% 감소를 달성하며 Training 없이도 기존 CoT baseline 대비 우수한 성능을 보인다. Qwen3-8B 계열에서 GSM8K, Math500, AIME24, AIME25, HumanEval 등 다수 벤치마크에서 일관된 이득을 보인다.
핵심 아이디어 이해하기
단락1: 출발점과 한계 - 기존의 explicit CoT는 thinking-before-answering 패턴으로 인해 응답 속도가 느려지고 불필요한 토큰이 증가한다. 또한 performative reasoning 현상으로 인해 필요 이상으로 긴 사고 과정을 거치는 경향이 있다. 단락2: 해결 원리 - CopT는 draft answer를 먼저 얻고, on-policy thinking은 draft를 조건으로 수행한다. 이때 continuous embeddings를 inference-time verifiers로 활용해 draft의 신뢰성을 판단하고, discrete-token 입력과 continuous-embedding 입력에서의 차이를 contrastively 비교한다. 단락3: 달라지는 점 - 신뢰도 추정 κa를 통해 draft의 필요성 여부를 판단하고, 필요 시 κr 기반의 chunk별 가시성 제어로 정보의 노출을 조절한다. 단락4: 기대 효과 - mix-prefix 가정 아래 E[κa]가 I(S; A)와 같아 draft-uncertainty가 답에 영향을 주는 경우에만 점수가 증가하므로, latent-state 불확실성이 항상 문제를 유발하지 않는다. 이로써 정확도 상승과 토큰 비용 감소를 달성한다.
방법론
- 전체 접근 방식과 핵심 아이디어 - CopT는 draft-answer-first 방식으로 시작하고, draft의 신뢰도에 따라 on-policy thinking을 트리거한다. continuous embeddings를 verifiers로 활용해 인퍼런스에서 reliability를 평가한다. 2) 핵심 메커니즘/알고리즘 상세 - Draft 단계에서 pt = pθ(at|q, a<t)와 et = Σv pθ(v|q,a<t)E(v)를 계산하고, p_e,t := pθ(at|q,e<t)를 얻은 뒤 κa(a1:Ta) = (1/Ta) Σt [log pθ(at|q,a<t) − log pθ(at|q,e<t)]로서 신뢰도를 추정한다. 이때 p_eθ(a|q) = Πt p_e,t 이다. 3) On-policy Thinking 및 가시성 제어 - κa > τa이면 draft 후 think를 수행하고, thinking은 chunk(C) 단위로 수행된다. 각 chunk에서 rk = tokens의 확률과 et를 캐시하고, κ(k) r(rsk:sk+C−1) = (1/C) Σt log pθ(rt|q,a(mk),rTa+1:t−1) − log pθ(rt|q,a(mk),rTa+1:sk−1; esk:t−1)로 계산한다. mk+1 = 1 if κ(k) r < τr else 0으로 업데이트한다. 4) 이론적 분석 - mixture-linear prefix를 가정하면 E[κ(S,A)] = I(S; A)가 되어 κa가 draft-답에 대한 answer-relevant uncertainty를 측정함을 보인다. 5) 구현 및 설정 - 차감 없이 inference-time에서 동작하며, Qwen3 및 Qwen3.5 모델에서 실험했다. 수식/패러다임은 텍스트로 정의된다.
관련 Figure

두 번째 그림은 κa와 κr의 임계값 τa, τr에 따른 성능 변화 및 토큰 사용 변화의 트레이드오프를 시각화한다. 이를 통해 reliability estimator의 민감도와 가시성 제어의 중요성을 보여준다.
Ablation 연구에서 κa/κr의 영향과 draft-length의 한계를 분석하는 도표.
주요 결과
메인 벤치마크: GSM8K에서 CoT 95.75% → CopT 96.36% (+0.61%), Tokens 2138 → 1813 (-15.2%). Math500에서 CoT 96.00% → CopT 97.60% (+1.60%), Tokens 4985 → 4851 (-2.7%). AIME24에서 CoT 75.83% → CopT 79.17% (+3.34%), Tokens 12077 → 11525 (-4.6%). AIME25에서 CoT 67.50% → CopT 70.42% (+2.92%), Tokens 12924 → 12801 (-1.0%). 코딩/STEM: HumanEval에서 CoT 59.60% → CopT 61.62% (+1.83%), Tokens 8123 → 6851 (-15.7%). LeetCode-Contest에서 CoT 59.44% → CopT 66.11% (+6.67%), Tokens 7306 → 7607 (+4.1%). MBPP에서 CoT 94.16% → CopT 94.55% (+0.39%), Tokens 2033 → 1997 (-1.8%). GPQA Diamond에서 CoT 59.60% → CopT 64.55% (+4.95%), Tokens 8123 → 6851 (-15.7%). 에이전트 추론 BFCL v4 및 ZebraArena에서도 개선이 관찰된다. 실험은 Token 사용량 감소와 함께 정확도 상승을 보여주며, 더 높은 reasoning effort를 허용할 때 추가 이익이 커진다. 효율성/지연: CopT은 평균 래미타를 감소시키고(예: GSM8K 37%~, HumanEval 69% 지연 감소), 정확도는 matched 또는 더 높은 수준을 유지한다. Ablation 연구에서 κa의 granular 선택이 GSM8K/Math500에서 추가 이익을 낳고, draft-length cap은 대체로 안정적인 성능을 유지한다.
관련 Figure

첫 번째 그림은 CopT가 CoT 대비 토큰 수를 감소시키면서도 Acc를 향상시키는 경향을 시각적으로 보여준다. 이는 draft-first 전략과 contrastive verification의 토큰 비용 절감 효과를 직접 증명한다.
CopT의 Acc%와 #Tokens 간의 관계를 보여주는 효율성 그래프(수학/코딩/STS 벤치마크에 대한 비교 포함).
기술 상세
아키텍처: draft-answer stage와 on-policy thinking stage의 두 단계를 가진다. 핵심은 discontinuous-discrete 입력과 continuous-embedding 입력에서 같은 토큰 시퀀스의 지지(distribution)를 대조하는 inference-time contrastive verifiers이다. 수학적 기초는 mixture-linear prefix 가정 하에서 pθ(a|ew) = P¯w(a) := Σs∈S w(s)Ps(a)로 정의되는 continuous prefix를 도입하고, 각 위치 t에서 κ(S,A) = log PS(A) − log P¯w(A)로 정의한다. Theorem 1에 따르면 E[κ(S,A)] = I(S; A) 이다. On-policy chunk는 C 길이로 분할되며, 각 chunk마다 κ^(k) r를 계산해 draft의 노출 여부를 결정한다. 이로써 draft의 정보가 유용할 때만 노출되고, 잘못된 정보가 흐를 때는 차단된다. 구현 디테일: Next-token 확률 pt와 연관 임베딩 et를 캐시하고, draft 길이 Ta에 대해 κa(a1:Ta) = (1/Ta) Σt (log pt − log pθ(at|q, e<t))으로 계산하며, p_eθ(a|q) = Πt p_e,t로 표현된다. 실험은 Qwen3, Qwen3.5에서 수행되었다.
한계점
추정량 κa/κr의 분산이 샘플링에 민감하다. 실험은 realized trajectory에 대해 계산되므로 다중 표본을 평균하는 접근보다 분산이 커질 수 있다. closed API의 경우 logits 노출이 제한될 수 있어, 대체 추정 방법이 필요하다. Draft-content granularity의 최적화는 task에 따라 다를 수 있으며, 일반화된 자동 추출은 복잡할 수 있다.
실무 활용
CopT는 training-free한 인퍼런스 파이프라인으로, draft-first 접근으로 초기 응답에 접근성을 높이고, reliability 추정과 chunk-단위 가시성 제어를 통해 불필요한 사고를 줄이면서 성능과 효율의 균형을 달성한다.
- LLM 기반 수학/컴퓨팅 문제 해결 시스템의 응답 속도 개선
- 코딩 보조 도구에서 추론 비용 감소와 정확도 증가
- 에이전트형 대화 시스템에서 장기 대화의 효율성 향상
- 대화형 도구에서 draft의 신뢰도에 따라 추가 사고를 동적으로 조절
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.