생각할 때와 말할 때: LLM 추론을 위한 공개 정책 학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

기존 LLM은 복잡한 문제를 풀 때 추론이 끝날 때까지 사용자를 기다리게 하거나, 너무 빨리 답하려다 틀린 답을 내놓는 딜레마가 있었다. 이 논문은 추론 과정 중간에 확신이 서는 부분만 골라 먼저 보여주는 Side-by-Side(SxS) 기법을 통해 대기 시간을 줄이면서도 높은 정확도를 유지하는 방법을 제시한다.

왜 중요한가

기존 LLM은 복잡한 문제를 풀 때 추론이 끝날 때까지 사용자를 기다리게 하거나, 너무 빨리 답하려다 틀린 답을 내놓는 딜레마가 있었다. 이 논문은 추론 과정 중간에 확신이 서는 부분만 골라 먼저 보여주는 Side-by-Side(SxS) 기법을 통해 대기 시간을 줄이면서도 높은 정확도를 유지하는 방법을 제시한다.

관련 Figure

Diagram
기존 방식은 추론이 끝날 때까지 긴 대기 시간(TTFT)이 발생하거나 조기 응답 시 신뢰도가 낮아지는 문제가 있음을 보여준다. 반면 SxS는 추론과 답변을 교차하여 정확도를 유지하면서도 지연 시간을 줄여 파레토 최적에 가까운 성능을 냄을 시각화한다.
기존의 결합된 추론 방식(A)과 제안된 SxS 방식(B)의 개념적 비교 및 정확도-지연 시간 트레이드오프 그래프

핵심 기여

Side-by-Side(SxS) 인터리브 추론 도입

표준 자기회귀 생성 과정 내에서 비공개 추론(think)과 공개 답변(speak)을 선택할 수 있는 제어 가능한 의사결정 메커니즘을 구현했다.

함의 기반 정렬 데이터 구축

추론 프리픽스가 답변 프리픽스를 논리적으로 뒷받침하는 시점을 찾아내어, 안전하게 조기 공개가 가능한 인터리브 학습 데이터를 생성하는 알고리즘을 개발했다.

SFT와 RL을 결합한 2단계 학습 프레임워크

지도 학습(SFT)으로 이중 액션 형식을 가르치고, 강화 학습(RL)을 통해 새로운 형식 하에서도 추론 성능을 복구하고 최적의 공개 타이밍을 학습시켰다.

정확도-지연 시간 파레토 최적화 증명

Qwen3 모델군을 대상으로 한 실험에서 기존 Chain-of-Thought 방식보다 사용자 체감 대기 시간을 대폭 줄이면서도 동등하거나 우수한 정확도를 달성했다.

핵심 아이디어 이해하기

기존의 Transformer 기반 LLM은 토큰을 생성하는 즉시 사용자에게 공개되는 구조를 가진다. 이는 모델이 내부적으로 더 깊이 고민해야 할 시점에도 이미 뱉어낸 토큰에 구속되어 이후의 사고 과정이 왜곡되거나, 반대로 모든 고민이 끝날 때까지 사용자를 무작정 기다리게 만드는 '침묵 비용'을 발생시킨다. 본 논문은 이 과정을 '공개 여부'라는 제어 가능한 변수로 분리하여 해결한다.

핵심 원리는 모델이 동일한 시퀀스 내에서 '비공개 사고 토큰'과 '공개 답변 토큰'을 구분하여 생성하도록 하는 것이다. 이는 마치 사람이 머릿속으로 계산을 하면서 확실해진 중간 결과만 입 밖으로 내뱉는 것과 유사하다. 기술적으로는 특수 태그를 사용하여 모델이 현재 생성하는 정보가 내부 상태만 업데이트할지, 아니면 사용자에게 보여줄지를 매 단계 결정하게 한다.

이러한 방식은 모델이 충분한 추론 근거를 확보했을 때만 답변을 출력하도록 강제함으로써, 조기 응답 시 발생할 수 있는 오류를 방지한다. 결과적으로 사용자는 모델의 전체 추론이 끝나기 전에도 논리적으로 검증된 중간 답변을 빠르게 받아볼 수 있게 되어, 체감 응답 속도와 신뢰성을 동시에 확보할 수 있다.

방법론

전체 접근 방식은 모델이 'think'와 'speak'라는 두 가지 액션을 선택하며 생성하는 visibility-controlled stream을 구축하는 것이다. 이를 위해 기존의 (질문, 추론, 답변) 데이터를 분석하여, 특정 추론 단계가 답변의 어느 부분까지 논리적으로 보장하는지 계산하는 함의 기반 정렬(Entailment-based alignment) 과정을 거친다.

학습은 두 단계로 진행된다. 첫 번째 SFT 단계에서는 정렬된 데이터를 통해 모델에게 이중 채널 형식을 학습시킨다. 두 번째 RL 단계에서는 GRPO(Group Relative Policy Optimization)를 적용하여 정확도를 복구한다. 이때 보상 함수는 최종 답변의 정답 여부(Outcome-only reward)를 기본으로 하며, 선택적으로 추론 블록의 길이를 조절하는 보상 셰이핑을 추가하여 공개 주기를 제어한다.

수학적으로는 정책 $\pi_\phi(c_k | \Sigma_{k-1})$ 를 학습시킨다. 여기서 $c_k$ 는 'R(Reasoning)' 또는 'A(Answer)' 액션을 의미하며, $\Sigma_{k-1}$ 은 이전까지의 전체 컨텍스트를 입력으로 받는다. 모델은 매 단계 $c_k$ 를 선택하고 그에 따른 토큰 $z_k$ 를 생성한다. $c_k=A$ 일 때만 해당 토큰이 사용자에게 공개되는 monotone한 공개 프로세스 $\Gamma_k$ 를 형성하며, 이를 통해 정확도와 지연 시간의 균형을 최적화한다.

관련 Figure

Diagram
데이터 생성 단계에서 추론과 답변을 논리적으로 연결하는 과정과, RL 단계에서 정답 여부 및 추론 입도에 따라 보상을 차등 지급하여 정책을 최적화하는 전체 파이프라인을 상세히 설명한다.
SxS 학습 프로세스 개요: 함의 정렬 기반 데이터 생성(A) 및 GRPO 기반 강화 학습(B) 과정

주요 결과

Qwen3-30B-A3B(MoE)와 Qwen3-4B(Dense) 모델을 대상으로 AIME25(수학) 및 GPQA-Diamond(과학) 벤치마크에서 실험을 수행했다. Qwen3-4B 모델의 경우, SxS 방식은 표준 CoT 방식 대비 AIME25에서 정확도를 73.8%에서 80.0%로 높이면서도 평균 응답 대기 시간(AIRW)을 21,316 토큰에서 8,519 토큰으로 약 60% 감소시켰다.

GPQA-Diamond 벤치마크에서는 표준 CoT 모델이 수학 특화 RL 이후 성능이 급격히 하락하는 '파괴적 망각' 현상을 보인 반면, SxS 모델은 49.3%의 정확도를 유지하며 강력한 도메인 외 일반화 성능을 입증했다. 이는 이중 채널 구조가 모델의 추론과 답변 사이의 논리적 결합을 강화하여 보상 해킹을 방지하는 효과가 있음을 시사한다.

추가 분석인 LiveCodeBench와 KOR-Bench에서도 SxS는 절대적인 정확도 향상폭이 적더라도, 항상 표준 CoT보다 더 빠르고 밀도 있는 사용자 피드백을 제공하는 파레토 우위를 점하는 것으로 나타났다. 특히 지연 시간 지표인 ARI와 ABO가 일관되게 개선되어 실질적인 사용자 경험 향상을 확인했다.

관련 Figure

Chart
SFT 직후 하락했던 정확도가 RL 과정을 거치며 표준 CoT 수준으로 복구되는 'dip-and-recover' 패턴을 보여준다. 이는 인터리브 형식이 성능 저하 없이 학습 가능함을 입증한다.
Qwen3-30B-A3B 모델의 RL 학습 단계에 따른 AIME25 정확도 변화 추이

기술 상세

SxS 아키텍처는 별도의 모델이나 숨겨진 상태 없이 표준 자기회귀 디코딩 내에서 경량 태그를 통해 가시성을 제어한다. 핵심 기술적 차별점은 '공개 타이밍'을 학습 가능한 정책 변수로 취급했다는 점이다. 이는 기존의 고정된 템플릿이나 휴리스틱 기반 스트리밍과 차별화된다.

데이터 생성 시 GPT-OSS-120B를 'Response Coverage Decider'로 활용하여 'No-New-Derivation' 제약 조건을 적용했다. 이는 추가적인 추론 없이 현재의 사고 프리픽스만으로 답변 블록이 도출되는지 엄격히 검증하여 할루시네이션 섞인 조기 공개를 방지한다. 구현 효율성을 위해 비동기 병렬 프리픽스 체크와 단조성 강제(Monotonicity Enforcement) 기법을 도입했다.

RL 단계에서는 GRPO를 사용하여 KL 발산 제약 없이도 안정적인 학습을 도모했다. 특히 보상 설계에서 Quadratic Programming(QP)을 활용해 정답 여부와 추론 입도(granularity) 사이의 상충 관계를 조절했다. 이는 정확도가 낮은 샘플이 형식을 맞추는 것만으로 보상을 받는 것을 방지하고, 정확도가 높은 샘플 내에서만 더 짧은 추론 블록을 선호하도록 유도한다.

관련 Figure

Chart
보상 인센티브 유무에 따라 추론 블록의 개수(입도)가 어떻게 변화하는지 보여준다. 인센티브가 있을 때 더 세밀한 인터리빙이 유지되지만 정확도 복구 속도는 다소 느려지는 트레이드오프를 확인할 수 있다.
RL 단계별 추론 블록 수와 정확도의 상관관계 분석

한계점

함의 정렬 과정에서 대형 모델을 검커로 사용하므로 전처리 비용이 높고, 검커의 노이즈로 인해 공개 타이밍이 너무 빠르거나 늦어지는 경우가 발생할 수 있다. 또한 현재는 단순한 구조적 프록시를 보상으로 사용하고 있어, 실제 사용자 유용성이나 불확실성 기반의 공개 정책으로의 확장이 필요하다.

실무 활용

실시간 상호작용이 중요한 추론형 AI 서비스에서 사용자 대기 시간을 획기적으로 줄이면서도 답변의 신뢰도를 유지하는 데 즉시 적용 가능하다.

수학 및 과학 문제 풀이 서비스에서 단계별 중간 풀이 실시간 제공
복잡한 코딩 에이전트의 작업 진행 상황을 논리적 단위로 사용자에게 공유
추론 과정이 긴 법률 또는 금융 분석 도구의 응답성 개선

코드 공개 여부: 비공개

키워드

LLM(대형 언어 모델)CoT(사고의 사슬)Autoregressive(자기회귀)Reinforcement Learning(강화 학습)Latency(지연 시간)Qwen3

생각할 때와 말할 때: LLM 추론을 위한 공개 정책 학습

TL;DR

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드