핵심 요약
LLM이 추론 중 스스로 오류를 수정하는 '아하 모먼트(Aha moments)'의 근본 원리를 정보 이론으로 규명했다. 단순히 특정 단어를 생성하는 것이 아니라 내부 불확실성을 언어화하여 추론 경로를 제어하는 메커니즘을 밝힘으로써, 더 강력한 추론 모델 설계를 위한 이론적 토대를 마련했다.
왜 중요한가
LLM이 추론 중 스스로 오류를 수정하는 '아하 모먼트(Aha moments)'의 근본 원리를 정보 이론으로 규명했다. 단순히 특정 단어를 생성하는 것이 아니라 내부 불확실성을 언어화하여 추론 경로를 제어하는 메커니즘을 밝힘으로써, 더 강력한 추론 모델 설계를 위한 이론적 토대를 마련했다.
핵심 기여
추론을 절차적 정보와 인식적 언어화로 분해하는 프레임워크 제안
추론 과정을 단계별 계산인 '절차적 정보'와 내부 불확실성을 외부로 표출하는 '인식적 언어화'라는 두 가지 축으로 정의하고, 이를 정보 이론적으로 정형화했다.
인식적 언어화의 정보 정체 해소 기능 입증
절차적 추론이 잘못된 경로에 빠져 정보 획득이 멈췄을 때, 불확실성을 언어로 표현함으로써 정체된 상호 정보량(MI)을 다시 높이고 정답에 도달할 수 있음을 증명했다.
MI Peak와 인식적 토큰의 상관관계 규명
추론 중 발생하는 급격한 정보량 증가가 단순히 'Wait' 같은 특정 토큰 때문이 아니라, 모델의 내부 평가 상태가 언어적으로 노출되는 순간과 일치함을 확인했다.
추론 증류 시 인식적 언어화의 필수성 확인
LIMO 데이터셋 실험을 통해 인식적 언어화가 제거된 정답 궤적만으로 학습할 경우 모델의 추론 성능이 급격히 저하됨을 발견하여, 불확실성 관리 능력 학습의 중요성을 강조했다.
핵심 아이디어 이해하기
기존의 Chain-of-Thought(CoT)는 추론을 단순히 정답을 향해 정보를 쌓아가는 절차적 과정으로 보았다. 하지만 이 방식은 모델이 한 번 잘못된 경로로 들어서면 내부적으로는 논리적으로 보일지라도 전체적으로는 틀린 답으로 수렴하며 정보 획득이 멈추는 '정보적 정체' 상태에 빠지는 한계가 존재한다. 이 논문은 추론에 '인식적 언어화(Epistemic Verbalization)'라는 새로운 축을 도입하여 이 문제를 해결한다.
인식적 언어화는 모델이 자신의 추론 상태에 대해 느끼는 내부적인 불확실성을 "잠깐, 이게 맞나?"와 같이 언어 형태로 밖으로 끄집어내는 과정이다. 딥러닝 모델은 이전 토큰에 조건화되어 다음 토큰을 생성하므로, 내부의 불확실성이 텍스트로 명시되어야만 다음 생성 과정에서 이를 인지하고 경로를 수정할 수 있다. 즉, 보이지 않는 내부 평가가 텍스트라는 가시적인 정보로 변환되어야만 모델이 이를 바탕으로 자가 수정이라는 제어 행동을 취할 수 있게 된다.
결과적으로 추론은 절차적 정보와 인식적 정보를 적절히 배분하는 '전략적 정보 할당' 과정이 된다. 불확실성이 외부화되면 정체되었던 상호 정보량(Mutual Information)이 다시 상승하며, 이는 모델이 정답에 도달하기 위해 필요한 정보를 다시 획득하기 시작했음을 의미한다. 이러한 메커니즘은 모델이 어려운 문제에서 더 많은 불확실성 토큰을 내뱉는 현상과 일맥상통한다.
방법론
추론을 외부 관찰 없이 내부 믿음을 변환하는 '자가 베이지안(Self-Bayesian) 추론'으로 정형화했다. 추론 목표를 타겟 변수 Y에 대한 불확실성(Shannon Entropy)을 최소화하는 궤적 를 생성하는 것으로 설정했다. 타겟 변수 Y에 대한 모델의 예측 확률 분포 가 주어질 때, Shannon Entropy 를 계산한다. 확률 분포가 특정 정답에 집중될수록 엔트로피 값은 낮아지며, 이는 모델이 정답에 대해 가지는 불확실성이 해소되었음을 의미한다.
추론 상태를 절차적 성분과 인식적 성분으로 구성된 '확장된 추론 상태(Augmented Reasoning State)'로 정의했다. 인식적 성분은 모델의 잠재적 평가 변수 가 언어적으로 노출된 것이며, 일 때 조건부 엔트로피를 감소시켜 정보 획득을 지속시킨다. 이전 상태 에서의 엔트로피와 새로운 토큰 가 추가된 상태 에서의 엔트로피 차이인 를 구한다. 이 값이 클수록 해당 추론 단계가 정답을 찾는 데 실질적으로 기여했음을 나타낸다.
정보 정체(Informational Stagnation)를 수학적으로 증명했다. 절차적 추론이 발산하여 잘못된 경로에 진입하면, 추가적인 절차적 단계만으로는 잔여 불확실성을 해소할 수 없음을 보였다. 이때 간헐적인 인식적 업데이트가 엔트로피를 최소 만큼 줄일 확률 가 존재한다면, 기대 시간 내에 정보 충분성()에 도달할 수 있음을 Proposition 3.6으로 제시했다.
주요 결과
Qwen2.5-Math-7B와 Qwen3-14B-Base 모델을 대상으로 AIME24 벤치마크에서 토큰별 엔트로피를 분석했다. 정답과 오답 경로 모두에서 토큰 수준의 엔트로피는 유사하게 감소했으나, 상호 정보량(MI) 분석 결과 오답 경로에서는 정보 획득이 조기에 중단되는 현상을 확인했다.
'Wait', 'Hmm'과 같은 인식적 토큰을 강제로 억제하거나 주입하는 실험을 수행했다. DeepSeek-R1-Distill 모델에서 인식적 토큰을 마스킹했을 때 성능이 최대 25% 하락했으며, 모델은 이를 우회하기 위해 다른 형태의 불확실성 표현을 생성하려 시도했다. 반면, 추론이 끝난 시점에 'Wait' 토큰을 강제로 주입하는 것은 성능 향상에 기여하지 못했다.
LIMO 데이터셋을 이용한 증류(Distillation) 실험에서, 인식적 언어화가 제거된 정답 궤적만으로 학습할 경우 모델 성능이 급격히 저하됨을 발견했다. Qwen2.5-7B 모델의 경우 LIMO 학습 시 26.7%의 성능을 보였으나, 인식적 표현을 제거한 Hindsight 데이터로 학습 시 3.3%~6.7%로 성능이 폭락했다. 이는 고성능 추론 모델의 핵심이 단순히 정답 경로를 따라가는 것이 아니라, 불확실성을 관리하는 능력을 학습하는 데 있음을 입증한다.
실무 활용
추론 모델의 성능 향상을 위해 단순히 정답 데이터를 늘리는 것보다, 모델이 자신의 불확실성을 표현하고 관리하는 능력을 학습시키는 것이 중요함을 시사한다. 이는 효율적인 추론 모델 설계 및 포스트 트레이닝 전략 수립에 직접적으로 활용될 수 있다.
- 추론 모델의 자가 수정(Self-correction) 능력 강화를 위한 데이터 큐레이션 및 정제
- 추론 과정의 투명성 및 해석 가능성 향상을 위한 내부 불확실성 모니터링 지표 개발
- 모델 크기 및 작업 난이도에 따른 최적의 CoT 길이 및 정보 밀도 조절 전략 수립
기술 상세
본 연구는 CoT를 정보 이론적 관점에서 재해석하여, 추론 궤적을 통한 정보 축적 과정을 수식화했다. 특히 '인식적 언어화'가 잠재적인 내부 평가를 인과적으로 유효한 정보로 전환하는 메커니즘임을 강조한다. MI Peak 현상을 내부 인식 변수 가 잠재 상태에서 정보적으로 활성화된 상태로 전이되는 순간으로 해석했으며, 이는 모델이 단순히 다음 토큰을 예측하는 것을 넘어 전체 추론 궤적의 신뢰도를 평가하고 이를 생성 과정에 반영함을 의미한다.
'Less Is More' 현상을 학생 모델과 교사 모델 간의 인식적 언어화 및 제어 능력의 정렬(Alignment) 관점에서 설명했다. 학생 모델이 교사의 불확실성 표현을 수용할 수 있는 '예열' 상태일 때만 소량의 데이터로도 급격한 성능 향상이 가능하다는 분석이다. 구현 측면에서는 Hilbert-Schmidt Independence Criterion(HSIC) 기반의 추정기를 사용하여 토큰 수준의 상호 정보량을 측정함으로써, 추론 중 정보가 실제로 언제 발생하는지 정밀하게 추적했다.
한계점
주요 이론적 전개가 외부 관찰이 없는 폐쇄형 세계(Closed-world) 설정을 가정하고 있어, 도구 사용이나 외부 피드백이 있는 개방형 세계 시나리오에 대한 공식적인 이론적 보장이나 체계적인 실험적 검증은 부족하다. 또한 인식적 언어화가 언제 유익한지 아니면 불필요한 장황함으로 이어지는지에 대한 정량적 기준을 확립하지 못했다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료