핵심 요약
이 논문은 LLM이 외부로 사고 과정을 드러내지 않고 내부적으로 얼마나 복잡한 계획을 세울 수 있는지에 대한 물리적 한계를 밝혀냈습니다. 모델 규모를 아무리 키워도 내부 계획 깊이는 최대 7단계에 머문다는 사실은 복잡한 문제 해결을 위해 사고의 사슬(CoT)을 외부로 출력하고 모니터링하는 것이 필수적임을 시사합니다.
왜 중요한가
이 논문은 LLM이 외부로 사고 과정을 드러내지 않고 내부적으로 얼마나 복잡한 계획을 세울 수 있는지에 대한 물리적 한계를 밝혀냈습니다. 모델 규모를 아무리 키워도 내부 계획 깊이는 최대 7단계에 머문다는 사실은 복잡한 문제 해결을 위해 사고의 사슬(CoT)을 외부로 출력하고 모니터링하는 것이 필수적임을 시사합니다.
핵심 기여
잠재적 계획 능력의 '깊이 천장' 발견
모델 규모를 1.6M에서 GPT-4o 수준까지 확장하더라도, 중간 단계 지도 학습 없이 스스로 발견할 수 있는 잠재적 계획 깊이는 최대 5~7단계에 불과함을 입증했다.
전략 발견과 실행 능력의 해리 현상 확인
모델이 특정 깊이의 전략을 스스로 발견하지 못하더라도, 일단 학습된 전략은 테스트 시점에 더 깊은 단계(최대 8단계)까지 일반화하여 실행할 수 있음을 보여주었다.
규모 확장의 한계성 증명
파라미터 수를 수천 배 늘려도 발견 가능한 계획 깊이는 단 2단계 증가하는 데 그쳤으며, 이는 단순한 스케일링이 내부 추론의 질적 도약을 보장하지 않음을 의미한다.
CoT 모니터링의 정당성 확보
복잡한 다단계 작업에서 모델이 내부적으로만 추론하는 데 한계가 있으므로, 추론 과정을 외부로 출력하게 만드는 CoT 방식이 안전성과 성능 측면에서 필수적임을 기술적으로 뒷받침했다.
관련 Figure

왼쪽 차트는 모델 규모가 커져도 발견 가능한 계획 깊이(Discovery Ceiling)가 7단계 근처에서 정체됨을 보여준다. 오른쪽 다이어그램은 모델이 한 번의 Forward Pass로 정답 노드를 맞히기 위해 내부적으로 수행해야 하는 경로 탐색 과정을 시각화한다.
모델별 잠재적 계획 능력(LPC)과 성형 그래프 실험 구조를 보여주는 차트 및 다이어그램이다.
핵심 아이디어 이해하기
Transformer 모델은 입력 토큰들을 Attention Mechanism을 통해 상호작용시키며 정보를 처리한다. 기존에는 모델이 한 번의 연산(Forward Pass) 내에서 얼마나 깊은 논리적 단계를 수행할 수 있는지 명확하지 않았다. 본 논문은 이를 '성형 그래프'에서의 경로 찾기 문제로 정의했다. 중심점에서 여러 갈래로 뻗은 길 중 정답을 찾으려면 모델은 내부적으로 여러 노드를 거쳐 끝까지 가본 뒤 다시 돌아와 첫 번째 발걸음을 결정해야 한다.
실험 결과, 모델은 '역추적(Backtracking)' 전략을 내부적으로 구축하여 이 문제를 해결한다. 하지만 이 전략을 스스로 찾아내는 과정에서 치명적인 병목 현상이 발생한다. 학습 신호가 최종 정답에만 주어지는 '희소한 감독' 환경에서는 모델이 내부 연산의 단계를 일정 수준 이상으로 쌓아 올리지 못하는 '깊이 천장(Depth Ceiling)'에 부딪히게 된다.
가장 놀라운 점은 GPT-4o와 같은 거대 모델조차 이 천장을 뚫지 못한다는 것이다. 이는 모델의 연산 용량(Capacity) 문제가 아니라, 복잡한 내부 알고리즘을 스스로 발견하게 만드는 학습 신호의 약화 문제이다. 결국 인간이 이해할 수 있는 형태로 추론 단계를 하나씩 가르치거나 외부로 쓰게 하지 않으면, AI는 일정 수준 이상의 복잡한 사고를 내부적으로 수행할 수 없다는 결론에 도달한다.
방법론
모델이 내부적으로 계획을 세워야만 풀 수 있는 Star Graph 경로 찾기 작업을 설계했다. 중심 노드 에서 개의 가지가 뻗어 있고, 각 가지의 길이는 이다. 모델은 타겟 노드 에 도달하기 위한 첫 번째 이동 노드 를 맞춰야 한다. 이때 이 커질수록 모델이 내부적으로 수행해야 하는 '잠재적 계획 깊이'가 선형적으로 증가한다.
학습은 표준적인 Next-token Prediction 방식을 사용했다. 입력 시퀀스 에 그래프 구조와 시작/목표 노드를 넣고, 출력 로 첫 번째 이동 노드만 예측하게 했다. 손실 함수는 를 계산하여 정답 확률을 높이는 방향으로 가중치를 갱신한다. 이 과정에서 중간 경로에 대한 어떠한 힌트나 지도도 제공하지 않아 모델이 스스로 내부 추론 로직을 발견하도록 강제했다.
모델의 내부 전략을 분석하기 위해 Backtracking Ratio(BR)라는 지표를 도입했다. 이는 마지막 토큰의 Attention 가중치가 정답 경로에 있는 에지들에 얼마나 집중되는지를 측정한다. 연산을 통해 특정 레이어 에서 정답 경로 노드들에 쏠린 점수를 합산하고 전체 에지 점수로 나누어, 모델이 실제로 경로를 역으로 추적하며 계산하는지 수치화했다.
주요 결과
1.6M 파라미터의 소형 Transformer는 최대 3단계의 잠재적 계획을 발견할 수 있었으나, 4단계부터는 성능이 급격히 하락했다. 레이어 수나 헤드 수를 늘려도 이 한계는 극복되지 않았다. GPT-4o와 Qwen3-32B 같은 거대 모델조차 파인튜닝을 거쳐도 발견 가능한 깊이는 5단계에 그쳤으며, GPT-5.4(가칭) 역시 Few-shot 환경에서 7단계가 한계였다.
오류 분석 결과, 모델이 실패할 때 대부분 '경로 위 오류(On-path Error)'를 범했다. 즉, 올바른 가지를 선택하는 데는 성공하지만 그 가지 안에서 몇 단계를 더 가야 하는지 계산하는 역추적 과정에서 실패하는 것이다. 이는 모델이 전략의 일부는 이해하고 있으나 전체 실행 깊이를 유지하지 못함을 보여준다.
반면, 사고의 사슬(CoT)을 통해 추론 과정을 외부로 출력하게 했을 때는 모든 모델이 20단계 이상의 복잡한 그래프 문제도 단 20번의 학습 업데이트만으로 완벽하게 해결했다. 이는 작업 자체가 어려운 것이 아니라, 추론 과정을 내부 잠재 상태에만 가두어 학습시키는 것이 근본적인 병목임을 증명한다.
관련 Figure

모든 모델이 훈련받은 깊이($m^*$)까지는 완벽한 성능을 보이지만, 그 이상의 깊이에서도 무작위 추측보다 높은 성능을 유지하며 일정 수준 일반화(Generalization)가 가능함을 보여준다. 이는 전략 발견보다 실행의 일반화가 더 용이함을 시사한다.
학습된 모델들이 훈련 시보다 더 깊은 단계의 문제에 직면했을 때의 성능 변화를 나타내는 그래프이다.

대부분의 오류가 'On-path Error'(녹색)로 나타나는데, 이는 모델이 올바른 방향(가지)은 찾았으나 그 안에서 정확한 단계를 계산하지 못했음을 의미한다. 이는 모델의 내부 계획 능력이 깊이 방향에서 한계에 부딪혔음을 입증하는 핵심 근거이다.
파인튜닝된 LLM들의 오류 유형 분포를 보여주는 바 차트이다.
기술 상세
본 연구는 Transformer의 표현 능력(Representational Capacity)과 전략 발견(Strategy Discovery) 능력을 엄격히 구분한다. 이전 연구들이 커리큘럼 학습을 통해 깊은 추론이 가능함을 보인 것과 달리, 본 논문은 단일 깊이의 데이터로만 학습했을 때 모델이 스스로 알고리즘을 유도해낼 수 있는지를 탐구했다. 결과적으로 Gradient-based Learning은 최종 결과에만 의존하는 희소한 신호 하에서 복잡한 내부 반복 연산을 구성하는 데 취약함을 확인했다.
아키텍처 측면에서, 성공적으로 학습된 모델은 하위 레이어에서 타겟 노드에 집중하고 상위 레이어로 갈수록 소스 노드 방향으로 Attention을 이동시키는 명확한 역추적 패턴을 형성한다. 하지만 이러한 패턴은 특정 깊이 임계값을 넘어서면 형성되지 않으며, 이는 손실 함수의 지형이 매우 평탄해지거나 국소 최적해에 빠지기 때문으로 분석된다.
또한, ICoT(Implicit CoT) 프레임워크를 사용해 외부 CoT를 내부로 증류(Distillation)하는 실험을 진행했다. 이를 통해 소형 모델도 6단계까지는 내부 계획 능력을 확장할 수 있었으나, 이 역시 모델의 물리적 용량 한계에 부딪혀 복잡한 그래프 구조로 확장되지는 못했다. 이는 LLM의 안전성 감독을 위해 내부 추론보다는 외부로 노출된 CoT 모니터링이 더 신뢰할 수 있는 방법임을 기술적으로 지지한다.
관련 Figure

성공한 모델은 레이어가 깊어질수록 타겟에서 소스로 역추적하는 뚜렷한 Attention 패턴을 보이지만, 실패한 모델(오른쪽)은 아무런 구조적 패턴을 형성하지 못한다. 이는 모델이 내부 전략을 발견하지 못했음을 시각적으로 증명한다.
성공적으로 학습된 모델과 실패한 모델의 레이어별 Attention 시각화 결과이다.
한계점
본 연구는 고도로 대칭적이고 로컬 큐가 없는 성형 그래프라는 특수한 환경에 국한되어 있다. 실제 세계의 추론 작업(코드 생성, 수학 증명 등)은 더 풍부한 중간 신호나 로컬 휴리스틱을 포함하고 있어, 본 논문이 제시한 '깊이 천장'이 다른 도메인에서도 동일하게 적용되는지는 추가 검증이 필요하다. 또한 폐쇄형 모델의 경우 파인튜닝 접근이 제한되어 Few-shot 결과로만 한계를 추정했다는 제약이 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.