길게 생각하는 것이 깊게 생각하는 것은 아니다: 구글과 UVA 연구진, AI 추론 품질 측정을 위한 '심층 사고 비율(DTR)' 제안

핵심 요약

기존 AI 추론 방식은 사고의 사슬(CoT)을 길게 늘리는 것에 집중했으나, 이는 오히려 정확도를 떨어뜨리는 '과잉 사고' 문제를 야기한다. 구글과 버지니아 대학교 연구진은 토큰이 모델의 깊은 계층에서 결정되는 정도를 측정하는 '심층 사고 비율(DTR)'이라는 새로운 지표를 제안했다. DTR은 토큰 생성 과정에서 내부 레이어의 확률 분포 변화를 분석하여 실제 논리적 노력이 들어간 토큰을 식별한다. 이를 활용한 'Think@n' 기법은 유망하지 않은 답변 생성을 조기에 중단함으로써 기존 방식보다 높은 정확도를 유지하면서도 추론 비용을 49% 절감했다.

배경

Transformer Architecture, Chain-of-Thought (CoT), Jensen-Shannon Divergence (JSD), Inference Scaling Laws

대상 독자

LLM 추론 최적화 및 비용 절감을 연구하는 AI 엔지니어 및 연구원

의미 / 영향

이 연구는 LLM의 '생각하는 시간'을 무작정 늘리는 것이 능사가 아님을 시사하며 추론 효율성을 극대화할 수 있는 새로운 지표를 제공한다. 특히 실시간 서비스나 대규모 배치 추론에서 비용을 절반으로 줄이면서도 성능을 높일 수 있는 구체적인 방법론을 제시했다는 점에서 의미가 크다.

섹션별 상세

단순히 많은 토큰을 생성하는 '토큰 맥싱(Token Maxing)' 전략이 AI의 정확도와 음의 상관관계(r = -0.59)를 가진다는 사실이 밝혀졌다. 모델이 불필요하게 긴 답변을 생성할 때 루프에 빠지거나 실수를 반복하는 '과잉 사고' 현상이 발생하며, 이는 고비용의 컴퓨팅 자원을 낭비하는 결과를 초래한다. 연구진은 출력물의 길이보다 모델 내부에서 일어나는 실질적인 추론 과정의 질이 더 중요하다는 점을 입증했다.

진정한 추론은 모델의 최종 출력뿐만 아니라 내부 트랜스포머 계층 전반에서 발생한다는 점에 착안하여 '심층 사고 토큰'의 개념을 정립했다. 쉬운 단어는 초기 계층에서 예측이 안정화되는 반면, 복잡한 논리나 수학적 기호는 깊은 계층에 도달해서야 예측값이 크게 변화하며 확정된다. 연구진은 중간 계층의 숨겨진 상태를 어휘 공간으로 투영하여 최종 계층과의 차이를 측정하는 방식으로 이를 수치화했다.

심층 사고 비율(DTR)은 전체 시퀀스 중 깊은 계층에서 안정화된 '어려운 토큰'의 비중을 나타내며, 이는 정확도와 강한 양의 상관관계(r = 0.683)를 보인다. 젠슨-샤논 발산(JSD)을 사용하여 중간 계층과 최종 계층 간의 확률 분포 차이를 계산하고, 특정 깊이 임계값 이후에 안정화되는 토큰을 식별한다. DeepSeek-R1, Qwen3 등 최신 모델 테스트 결과, DTR은 기존의 길이 기반 지표보다 성능 예측력이 훨씬 뛰어난 것으로 나타났다.

DTR 지표를 실무에 적용한 'Think@n' 기법은 추론 시 성능을 확장하는 새로운 방법론을 제시한다. 기존의 자기 일관성(Self-Consistency) 방식이 모든 후보 답변을 끝까지 생성한 후 다수결로 결정하는 것과 달리, Think@n은 생성 초기 단계에서 각 후보의 DTR을 계산한다. 단 50개의 접두사 토큰만으로도 답변의 유망성을 판단하여 DTR이 낮은 후보는 즉시 생성을 중단하는 '조기 중단(Early Halting)' 전략을 사용한다.

AIME 2025 수학 벤치마크 테스트에서 Think@n은 표준 다수결 방식보다 높은 94.7%의 정확도를 기록하면서도 토큰 사용량은 절반 수준으로 줄였다. 기존 방식이 307.6k 토큰을 소모할 때 Think@n은 155.4k 토큰만으로 더 나은 결과를 도출하여 비용 효율성을 49% 개선했다. 이는 대규모 추론 모델을 운영하는 환경에서 성능 저하 없이 운영 비용을 획기적으로 낮출 수 있는 실질적인 해결책이 될 수 있다.

실무 Takeaway

출력 길이가 길어질수록 정확도가 떨어지는 경향이 있으므로 무조건 긴 CoT를 유도하기보다 추론의 질을 관리해야 한다.
DTR 지표를 활용하면 답변 생성 초기에 해당 결과의 정확도를 예측할 수 있어 불필요한 연산을 조기에 차단할 수 있다.
모델의 내부 레이어 활성화를 분석하는 기법은 단순한 확률값 기반 필터링보다 훨씬 정교한 성능 제어를 가능하게 한다.

언급된 리소스

논문Thinking Long is Not Thinking Hard: Deep-Thinking Ratio for LLM Reasoning