서울대학교 DSBA 연구실AI/ML

에이전트 AI 4주차: Tree-of-Thoughts와 고급 추론 기법 분석

대규모 언어 모델의 단일 경로 추론 한계를 극복하기 위해 제안된 Tree-of-Thoughts 프레임워크와 자기 평가 기반 빔 서치 기법의 원리 및 실험 결과를 상세히 다룹니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

LLM의 추론을 단순한 텍스트 생성이 아닌 '탐색(Search)'의 문제로 재정의하고, 중간 단계의 평가와 분기 탐색을 통해 복잡한 문제 해결 능력을 획기적으로 높일 수 있다.

배경

LLM이 복잡한 추론 문제에서 겪는 한계인 할루시네이션과 단일 경로 추론의 오류 누적 문제를 해결하기 위한 연구 배경에서 시작되었다.

대상 독자

AI 연구자, LLM 추론 최적화에 관심 있는 개발자, 대학원생

의미 / 영향

이 연구들은 LLM이 단순한 텍스트 생성기를 넘어 자율적인 문제 해결 에이전트로 진화하기 위한 필수적인 추론 아키텍처를 제시한다. 실무에서 복잡한 로직이나 다단계 계획이 필요한 AI 시스템 설계 시, ToT와 같은 탐색 기반 프롬프팅 전략과 자기 평가 메커니즘을 도입하여 시스템의 신뢰성과 정확도를 확보할 수 있다.

챕터별 상세

02:13

기존 LLM 추론의 한계점 분석

LLM 인퍼런스는 확률이 높은 다음 토큰을 생성하는 방식이기에 올바른 추론을 보장하지 못한다. 특히 한 번 뱉은 말을 주워담을 수 없는 선형적 구조(Left-to-Right)로 인해 초기 단계의 작은 실수가 이후 모든 단계를 오염시키는 에러 누적(Error Accumulation) 문제가 발생한다. 이는 대안을 비교하거나 더 나은 경로를 탐색하는 과정이 부재하기 때문에 발생하는 구조적 한계이다.

•LLM의 Likelihood는 Correctness와 일치하지 않아 할루시네이션 발생 원인이 됨
•단일 경로 추론(Single-Path Reasoning)은 백트래킹이나 수정이 불가능함
•추론 단계가 깊어질수록 초기 오류로 인해 성공률이 급격히 하락함

04:30

추론을 탐색 문제로 재정의: Reasoning as Search

단순한 연상 작용을 넘어 LLM이 의도적인 계획(Deliberate Planning)을 수행하도록 만들기 위해 추론을 탐색 문제로 접근한다. 이를 위해 추론 과정을 상태(State), 탐색(Navigation), 평가(Evaluation)의 세 가지 축으로 정의한다. 고급 추론은 더 많은 토큰을 생성하는 것이 아니라, 잘 정의된 상태 공간에서 더 나은 탐색과 선택을 수행하는 과정으로 이해된다.

•추론 단위를 Thought로 정의하고 상태 공간을 구성함
•BFS, DFS 등 알고리즘을 통해 상태 공간을 탐색함
•Heuristic 함수를 통해 각 상태의 유망함을 평가함

06:21

Tree of Thoughts (ToT) 프레임워크

Chain-of-Thought의 단일 경로 한계를 극복하기 위해 중간 추론을 노드로 하는 트리 구조의 ToT 프레임워크를 제안했다. LLM이 생성한 여러 사고(Thought)를 트리 구조로 관리하며, 자기 평가를 휴리스틱으로 활용하여 유망한 경로를 선택한다. 이는 인간이 문제를 해결할 때 여러 대안을 고려하고 시행착오를 거치는 과정과 유사한 Deliberate Problem Solving을 구현한다.

•중간 추론 단계를 Thought 노드로 정의함
•LLM 스스로 중간 단계의 가치를 평가(Value/Vote)함
•탐색 알고리즘을 결합하여 최적의 추론 경로를 찾아냄

10:17

ToT의 핵심 요소: 사고 분해 및 생성

ToT를 구현하기 위해 사고(Thought)를 적절한 단위로 분해하는 과정이 필수적이다. 사고의 단위는 생성 가능할 만큼 작으면서도 평가 가능할 만큼 의미 있는 수준이어야 한다. 사고 생성 전략으로는 동일한 프롬프트에서 여러 번 샘플링하는 방식(Sample)과 하나의 프롬프트에서 여러 후보를 나열하는 방식(Propose)을 사용한다.

•Thought는 평가 가능하고 생성 가능한 의미 있는 중간 단계 단위여야 함
•Sample 전략은 확률적 다양성을 확보하는 데 유리함
•Propose 전략은 제약 조건이 강한 탐색 공간에서 중복을 줄이는 데 효과적임

11:50

ToT의 핵심 요소: 상태 평가 및 탐색 알고리즘

상태 평가기(State Evaluator)는 각 중간 단계가 정답으로 이어질 가능성을 판단하며, LLM 자체를 평가자로 활용한다. 평가 방식은 각 상태를 독립적으로 점수화하는 Value 방식과 여러 후보를 비교하는 Vote 방식이 있다. 탐색 알고리즘으로는 각 단계에서 상위 B개의 유망한 상태를 유지하는 BFS(Beam Search)와 깊게 탐색하다 가망이 없으면 되돌아오는 DFS를 문제 특성에 맞게 선택한다.

•LLM이 Sure, Maybe, Impossible 등의 척도로 상태를 평가함
•BFS는 병렬적 경로 유지가 가능하며 빔 사이즈 조절로 성능 최적화가 가능함
•DFS는 백트래킹을 통해 깊은 탐색 공간에서 효율적으로 작동함

14:36

ToT 실험 결과: Game of 24 및 Creative Writing

수학적 추론 과제인 Game of 24에서 ToT는 74%의 성공률을 기록하며 CoT(4%) 대비 압도적인 성능을 보였다. 이는 초기 연산 선택의 오류를 중간 평가와 탐색으로 극복했기 때문이다. Creative Writing 과제에서도 ToT는 글쓰기 계획을 먼저 수립하고 평가하는 과정을 통해 CoT보다 일관성 있고 품질 높은 글을 생성했으며, 인간 평가에서도 더 높은 선호도를 얻었다.

•Game of 24에서 빔 사이즈가 커질수록 성공률이 향상됨
•Creative Writing에서 계획 탐색과 반복적 개선이 효과적이었음
•정답이 없는 생성 과제에서도 Vote 방식의 평가가 유효함

20:17

ToT 실험 결과: Mini Crosswords

탐색 깊이가 깊고 제약 조건이 복잡한 Mini Crosswords 과제에서 ToT는 DFS 기반 백트래킹을 적용했다. 단어 단위로 사고를 정의하고, LLM의 컨피던스 평가를 통해 불가능한 경로는 가지치기(Pruning)를 수행했다. 실험 결과 ToT는 기존 방식들이 거의 해결하지 못한 퍼즐을 20%의 성공률로 해결했으며, 백트래킹 과정이 성능 향상에 결정적인 역할을 했음을 확인했다.

•DFS와 백트래킹을 통해 복잡한 제약 조건 문제를 해결함
•가지치기를 통해 탐색 효율을 극대화함
•단어와 글자 수준의 세밀한 사고 정의가 필요함

23:50

자기 평가 가이드 빔 서치 (Self-Evaluation Guided Beam Search)

추론 과정을 여러 토큰 시퀀스 단계로 분해하고, 각 단계에서 생성 확률(Likelihood)과 자기 평가 점수(Correctness)를 결합한 점수를 기반으로 빔 서치를 수행한다. 단순히 자연스러운 문장을 만드는 것을 넘어, LLM이 스스로 판단한 정답 가능성을 탐색 가이드로 활용한다. 이를 통해 추론 체인의 일관성을 높이고 오류가 포함된 경로를 효과적으로 배제한다.

•Generation Likelihood와 Self-evaluation 점수를 결합하여 빔을 선택함
•Stochastic Beam Search를 통해 탐색의 다양성을 확보함
•단계별로 템퍼러처를 조절하여 탐색과 활용의 균형을 맞춤

30:05

자기 평가 가이드 빔 서치 실험 및 분석

산술 추론(GSM8K)과 상식 추론 과제에서 제안 기법은 기존 CoT나 PAL 대비 우수한 성능을 보였다. 특히 추론 단계가 길어질수록 성능 향상 폭이 컸으며, 이는 에러 누적을 방지하는 효과를 입증한다. 비용 분석 결과, 더 적은 계산량(토큰 수)으로도 기존 베이스라인보다 높은 정확도를 달성하여 효율적인 탐색이 가능함을 보여주었다.

•추론 체인이 길어질수록 자기 평가 기반 탐색의 효과가 증대됨
•동일 토큰 사용량 대비 베이스라인보다 높은 정확도를 기록함
•산술 추론에서 정답과 오답 경로의 점수 분포 차이가 명확하게 나타남

실무 Takeaway

LLM 추론을 단순 생성이 아닌 상태 공간 탐색 문제로 접근하여 중간 단계(Thought)를 정의하고 평가하는 것이 복잡한 문제 해결의 핵심이다.
ToT 프레임워크는 수학적 퍼즐이나 제약 조건이 많은 문제에서 백트래킹과 가지치기를 통해 CoT의 한계를 획기적으로 개선한다.
자기 평가 점수와 생성 확률을 결합한 빔 서치 전략은 추론 과정의 오류 누적을 방지하고 계산 효율성을 높인다.
사고의 단위(Thought Unit)를 문제 특성에 맞게 적절히 분해하는 것이 탐색 성능에 결정적인 영향을 미친다.

언급된 리소스

논문Tree of Thoughts: Deliberate Problem Solving with Large Language Models

논문Self-Evaluation Guided Beam Search for Reasoning

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 06.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

에이전트 AI 4주차: Tree-of-Thoughts와 고급 추론 기법 분석 | AI Trends