핵심 요약
최근 멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 공간 추론(spatial reasoning)과 같은 복잡한 작업을 해결하기 위해 주로 텍스트 인코더로서 확산(diffusion) 프레임워크에 널리 통합되었습니다. 그러나 이러한 패러다임은 두 가지 결정적인 한계를 가지고 있습니다. (i) MLLM 텍스트 인코더의 추론 깊이가 부족합니다. 단일 단계 인코딩은 MLLM이 복잡한 작업에 대해 정확한 가이드를 제공하는 데 필수적인 사고 사슬(Chain-of-Thought, CoT) 프로세스를 활성화하지 못합니다. (ii) 디코딩 과정 중에 가이드가 변하지 않고 고정됩니다. 디코딩 중의 불변하는 가이드는 MLLM 인코딩이 정확하더라도 확산 트랜스포머(Diffusion Transformer, DiT)가 복잡한 지시사항을 실행 가능한 노이즈 제거(denoising) 단계로 점진적으로 분해하는 것을 방해합니다. 이를 해결하기 위해 본 논문은 내생적 사고 사슬(Endogenous Chain-of-Thought, EndoCoT)이라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 먼저 반복적 사고 가이드 모듈(iterative thought guidance module)을 통해 잠재 사고 상태를 반복적으로 정제함으로써 MLLM의 추론 잠재력을 활성화하고, 이러한 상태를 DiT의 노이즈 제거 프로세스에 연결합니다. 둘째, 최종 상태를 정답(ground-truth)과 정렬하여 추론 궤적이 텍스트 감독에 기반을 두도록 보장하는 종단 사고 접지 모듈(terminal thought grounding module)을 적용합니다. 이러한 두 구성 요소를 통해 MLLM 텍스트 인코더는 세심하게 추론된 가이드를 전달하며, DiT가 이를 점진적으로 실행하여 궁극적으로 복잡한 작업을 단계별로 해결할 수 있게 합니다. 미로(Maze), 외판원 문제(TSP), 시각적 공간 계획(VSP), 스도쿠(Sudoku) 등 다양한 벤치마크에 걸친 광범위한 평가에서 평균 92.1%의 정확도를 달성했으며, 이는 가장 강력한 베이스라인보다 8.3% 포인트 높은 수치입니다.
핵심 기여
내생적 사고 사슬(EndoCoT) 프레임워크
확산 모델 내부에 MLLM의 추론 능력을 직접 통합하여 복잡한 공간 및 논리 문제를 해결하는 구조를 확립했다.
반복적 사고 가이드 모듈
잠재 사고 상태를 반복적으로 정제하여 MLLM이 깊이 있는 추론을 수행하고 이를 DiT의 노이즈 제거 단계에 동적으로 반영한다.
종단 사고 접지 모듈
최종 추론 상태를 실제 정답과 정렬하여 전체 추론 경로가 텍스트 감독 하에 정확하게 유지되도록 보장한다.
방법론
EndoCoT는 MLLM의 텍스트 인코더를 반복적인 추론 엔진으로 활용하여 잠재 사고 상태를 생성한다. 반복적 사고 가이드 모듈은 이 상태를 DiT의 각 노이즈 제거 단계에 주입하며, 종단 사고 접지 모듈은 최종 상태와 정답 간의 정렬 손실을 통해 추론의 정확도를 높인다.
주요 결과
Maze, TSP, VSP, Sudoku 벤치마크에서 평균 정확도 92.1%를 기록했다. 이는 기존의 가장 강력한 베이스라인 모델 대비 8.3% 포인트 향상된 성능이다.
시사점
확산 모델이 단순 생성을 넘어 고도의 공간 추론과 논리적 문제 해결이 필요한 로보틱스 및 계획 분야로 확장될 가능성을 제시한다. MLLM의 사고 사슬을 생성 모델의 내부 메커니즘에 직접 결합하는 방식은 향후 지능형 에이전트 개발의 핵심 기술이 될 것이다.
키워드
섹션별 상세
내생적 사고 사슬(EndoCoT) 프레임워크
반복적 사고 가이드 모듈
종단 사고 접지 모듈
AI 요약 · 북마크 · 개인 피드 설정 — 무료