CopT: General 및 Agentic Reasoning을 위한 Continuous Spaces에서의 Contrastive On-Policy Thinking

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

LLM의 Chain-of-Thought(COT) 추론은 정답 도출 전 사고를 요구해 응답 지연과 불필요한 토큰 비용을 야기한다. CopT는 draft-first 전략으로 먼저 답을 제시하고, continuous embeddings를 인퍼런스 시 verifiers로 활용하여 draft의 신뢰성을 판단한다. GSM8K, Math500, AIME24/AIME25, HumanEval 등에서 피크 정확도 최대 23% 향상과 토큰 사용량 최대 57% 절감으로 실험적으로 입증된다.

왜 중요한가

핵심 기여

Training-free CopT 파이프라인

Draft answer를 먼저 생성한 뒤 on-policy thinking을 조건부로 실행하는 파이프라인이다. 두-stage 구조를 통해 접근 비용을 줄이고, draft의 신뢰도에 따라 추가 사고를 유도한다.

Reliability Estimator κa

연속-임베딩과 이산-prefix 간 대조를 통해 draft의 신뢰성을 측정하는 시퀀스-레벨 reverse KL 추정기 κa를 도입한다. κa는 pθ(a|q,a<t)와 pθ(a|q,e<t)의 차이를 평균하여 Draft-Reliability를 평가한다.

On-policy Thinking의 동적 가시성 제어 κr

Draft가 불안정하다고 판단될 때 chunk 단위로 thinking을 수행하며, 각 chunk마다 κr를 계산해 draft의 노출 정도를 제어한다. mk+1 = 1(κr < τr)인 visibility 업데이트로 신뢰성 높은 정보는 노출하고 불안을 차단한다.

실험적 성과 및 학습 없이 개선

수학, 코딩, agentic 추론에서 피크 정확도 최대 23% 향상, 토큰 사용량 최대 57% 감소를 달성하며 Training 없이도 기존 CoT baseline 대비 우수한 성능을 보인다. Qwen3-8B 계열에서 GSM8K, Math500, AIME24, AIME25, HumanEval 등 다수 벤치마크에서 일관된 이득을 보인다.

핵심 아이디어 이해하기

단락1: 출발점과 한계 - 기존의 explicit CoT는 thinking-before-answering 패턴으로 인해 응답 속도가 느려지고 불필요한 토큰이 증가한다. 또한 performative reasoning 현상으로 인해 필요 이상으로 긴 사고 과정을 거치는 경향이 있다. 단락2: 해결 원리 - CopT는 draft answer를 먼저 얻고, on-policy thinking은 draft를 조건으로 수행한다. 이때 continuous embeddings를 inference-time verifiers로 활용해 draft의 신뢰성을 판단하고, discrete-token 입력과 continuous-embedding 입력에서의 차이를 contrastively 비교한다. 단락3: 달라지는 점 - 신뢰도 추정 κa를 통해 draft의 필요성 여부를 판단하고, 필요 시 κr 기반의 chunk별 가시성 제어로 정보의 노출을 조절한다. 단락4: 기대 효과 - mix-prefix 가정 아래 E[κa]가 I(S; A)와 같아 draft-uncertainty가 답에 영향을 주는 경우에만 점수가 증가하므로, latent-state 불확실성이 항상 문제를 유발하지 않는다. 이로써 정확도 상승과 토큰 비용 감소를 달성한다.

방법론

전체 접근 방식과 핵심 아이디어 - CopT는 draft-answer-first 방식으로 시작하고, draft의 신뢰도에 따라 on-policy thinking을 트리거한다. continuous embeddings를 verifiers로 활용해 인퍼런스에서 reliability를 평가한다. 2) 핵심 메커니즘/알고리즘 상세 - Draft 단계에서 pt = pθ(at|q, a<t)와 et = Σv pθ(v|q,a<t)E(v)를 계산하고, p_e,t := pθ(at|q,e<t)를 얻은 뒤 κa(a1:Ta) = (1/Ta) Σt [log pθ(at|q,a<t) − log pθ(at|q,e<t)]로서 신뢰도를 추정한다. 이때 p_eθ(a|q) = Πt p_e,t 이다. 3) On-policy Thinking 및 가시성 제어 - κa > τa이면 draft 후 think를 수행하고, thinking은 chunk(C) 단위로 수행된다. 각 chunk에서 rk = tokens의 확률과 et를 캐시하고, κ(k) r(rsk:sk+C−1) = (1/C) Σt log pθ(rt|q,a(mk),rTa+1:t−1) − log pθ(rt|q,a(mk),rTa+1:sk−1; esk:t−1)로 계산한다. mk+1 = 1 if κ(k) r < τr else 0으로 업데이트한다. 4) 이론적 분석 - mixture-linear prefix를 가정하면 E[κ(S,A)] = I(S; A)가 되어 κa가 draft-답에 대한 answer-relevant uncertainty를 측정함을 보인다. 5) 구현 및 설정 - 차감 없이 inference-time에서 동작하며, Qwen3 및 Qwen3.5 모델에서 실험했다. 수식/패러다임은 텍스트로 정의된다.

주요 결과

메인 벤치마크: GSM8K에서 CoT 95.75% → CopT 96.36% (+0.61%), Tokens 2138 → 1813 (-15.2%). Math500에서 CoT 96.00% → CopT 97.60% (+1.60%), Tokens 4985 → 4851 (-2.7%). AIME24에서 CoT 75.83% → CopT 79.17% (+3.34%), Tokens 12077 → 11525 (-4.6%). AIME25에서 CoT 67.50% → CopT 70.42% (+2.92%), Tokens 12924 → 12801 (-1.0%). 코딩/STEM: HumanEval에서 CoT 59.60% → CopT 61.62% (+1.83%), Tokens 8123 → 6851 (-15.7%). LeetCode-Contest에서 CoT 59.44% → CopT 66.11% (+6.67%), Tokens 7306 → 7607 (+4.1%). MBPP에서 CoT 94.16% → CopT 94.55% (+0.39%), Tokens 2033 → 1997 (-1.8%). GPQA Diamond에서 CoT 59.60% → CopT 64.55% (+4.95%), Tokens 8123 → 6851 (-15.7%). 에이전트 추론 BFCL v4 및 ZebraArena에서도 개선이 관찰된다. 실험은 Token 사용량 감소와 함께 정확도 상승을 보여주며, 더 높은 reasoning effort를 허용할 때 추가 이익이 커진다. 효율성/지연: CopT은 평균 래미타를 감소시키고(예: GSM8K 37%~, HumanEval 69% 지연 감소), 정확도는 matched 또는 더 높은 수준을 유지한다. Ablation 연구에서 κa의 granular 선택이 GSM8K/Math500에서 추가 이익을 낳고, draft-length cap은 대체로 안정적인 성능을 유지한다.

기술 상세

아키텍처: draft-answer stage와 on-policy thinking stage의 두 단계를 가진다. 핵심은 discontinuous-discrete 입력과 continuous-embedding 입력에서 같은 토큰 시퀀스의 지지(distribution)를 대조하는 inference-time contrastive verifiers이다. 수학적 기초는 mixture-linear prefix 가정 하에서 pθ(a|ew) = P¯w(a) := Σs∈S w(s)Ps(a)로 정의되는 continuous prefix를 도입하고, 각 위치 t에서 κ(S,A) = log PS(A) − log P¯w(A)로 정의한다. Theorem 1에 따르면 E[κ(S,A)] = I(S; A) 이다. On-policy chunk는 C 길이로 분할되며, 각 chunk마다 κ^(k) r를 계산해 draft의 노출 여부를 결정한다. 이로써 draft의 정보가 유용할 때만 노출되고, 잘못된 정보가 흐를 때는 차단된다. 구현 디테일: Next-token 확률 pt와 연관 임베딩 et를 캐시하고, draft 길이 Ta에 대해 κa(a1:Ta) = (1/Ta) Σt (log pt − log pθ(at|q, e<t))으로 계산하며, p_eθ(a|q) = Πt p_e,t로 표현된다. 실험은 Qwen3, Qwen3.5에서 수행되었다.

한계점

추정량 κa/κr의 분산이 샘플링에 민감하다. 실험은 realized trajectory에 대해 계산되므로 다중 표본을 평균하는 접근보다 분산이 커질 수 있다. closed API의 경우 logits 노출이 제한될 수 있어, 대체 추정 방법이 필요하다. Draft-content granularity의 최적화는 task에 따라 다를 수 있으며, 일반화된 자동 추출은 복잡할 수 있다.

실무 활용

CopT는 training-free한 인퍼런스 파이프라인으로, draft-first 접근으로 초기 응답에 접근성을 높이고, reliability 추정과 chunk-단위 가시성 제어를 통해 불필요한 사고를 줄이면서 성능과 효율의 균형을 달성한다.

LLM 기반 수학/컴퓨팅 문제 해결 시스템의 응답 속도 개선
코딩 보조 도구에서 추론 비용 감소와 정확도 증가
에이전트형 대화 시스템에서 장기 대화의 효율성 향상
대화형 도구에서 draft의 신뢰도에 따라 추가 사고를 동적으로 조절

코드 공개 여부: 공개

코드 저장소 보기

키워드

CopTon-policy thinkingcontinuous embeddingsreverse KL estimatormutual informationcontrastive verifierstoken efficiencyLLM