핵심 요약
수학이나 논리 영역에서 혁신을 일으킨 Chain-of-Thought(CoT) 기법이 시각적 공간 추론에서는 오히려 성능을 떨어뜨린다는 사실을 발견했습니다. 모델이 이미지의 실제 기하학적 구조를 파악하기보다 텍스트 정보에만 의존해 환각을 일으키는 '지름길 학습' 문제를 지적하며, 진정한 시각 지능을 위한 새로운 학습 패러다임의 필요성을 제시합니다.
왜 중요한가
수학이나 논리 영역에서 혁신을 일으킨 Chain-of-Thought(CoT) 기법이 시각적 공간 추론에서는 오히려 성능을 떨어뜨린다는 사실을 발견했습니다. 모델이 이미지의 실제 기하학적 구조를 파악하기보다 텍스트 정보에만 의존해 환각을 일으키는 '지름길 학습' 문제를 지적하며, 진정한 시각 지능을 위한 새로운 학습 패러다임의 필요성을 제시합니다.
핵심 기여
CoT 프롬프팅의 성능 저하 현상 규명
17개 모델을 대상으로 13개 공간 추론 벤치마크를 테스트한 결과, CoT 프롬프팅을 사용할 때 기본 프롬프트 대비 정확도가 평균 3% 하락함을 입증했다.
추론 모델의 백본 성능 미달 확인
RL 기반으로 훈련된 8개의 멀티모달 추론 모델(MRM) 중 7개가 자신이 기반으로 한 백본 모델(Qwen2.5-VL 등)의 성능을 넘어서지 못하는 현상을 발견했다.
No-Image++ 절제 연구를 통한 환각 증명
이미지가 없는 상태에서도 모델이 텍스트 단서만으로 시각적 세부 사항을 지어내어 답변하는 심각한 지름길 학습(Shortcut Learning) 문제를 노출했다.
핵심 아이디어 이해하기
기존의 Chain-of-Thought(CoT)는 복잡한 문제를 단계별 텍스트로 풀어내어 논리적 오류를 줄이는 데 효과적이었다. 하지만 시각적 공간 추론은 이미지 내 객체 간의 기하학적 관계, 정밀한 위치 정보(Localization), 그리고 시각적 접지(Grounding)가 핵심이다. 텍스트 중심의 CoT는 이러한 시각적 정보를 처리하기보다 언어적 확률에 의존하는 경향이 있다.
모델은 이미지의 픽셀 정보를 분석하여 공간적 배치를 이해하는 대신, 질문에 포함된 텍스트 단서에서 정답을 유추하려 한다. 예를 들어 '동굴이 나무 아래에 있는가?'라는 질문에 실제 이미지를 보지 않고도 '보통 동굴은 지면에 있으니 나무 아래에 있을 것'이라는 언어적 편향(Textual Prior)을 따라가는 식이다.
결과적으로 CoT 과정에서 생성되는 장황한 텍스트는 모델이 시각 정보에 집중하지 못하게 방해하며, 존재하지 않는 시각적 세부 사항을 사실처럼 묘사하는 환각을 유도한다. 이는 단순히 텍스트 추론을 확장하는 것만으로는 진정한 공간 지능을 구현할 수 없음을 의미한다.
방법론
17개의 멀티모달 모델을 선정하여 2D 관계, 3D 기하학, 동적/시간적 이해를 포함하는 13개 데이터셋에서 성능을 측정했다. 실험군은 Qwen2.5-VL 기반의 최신 추론 모델(GThinker, Vision-R1 등)과 일반 멀티모달 모델(InternVL, LLaVA 등)로 구성했다.
평가 방식은 모든 데이터셋에 대해 동일한 시스템 프롬프트와 다지선다형(MCQ) 형식을 적용하여 변수를 통제했다. CoT 설정에서는 모델이 답변 전 태그 내에서 사고 과정을 출력하도록 유도했으며, 이를 비CoT 설정과 비교 분석했다.
모델의 시각 정보 의존도를 측정하기 위해 No-Image++ 기법을 도입했다. 원본 이미지 대신 회색 빈 이미지를 입력값으로 넣고 선택지에 '이미지에서 판단 불가' 옵션을 추가했다. [빈 이미지 입력 → CoT 추론 수행 → 정답 선택] 과정을 통해 모델이 시각 정보 없이 텍스트만으로 얼마나 확신을 가지고 오답을 생성하는지 수치화했다.
주요 결과
실험 결과, CoT 프롬프팅은 다양한 모델 규모와 아키텍처 전반에서 성능 하락을 유발했다. 특히 GThinker 모델은 CoT를 사용하지 않았을 때보다 성능이 23.14%나 급락하는 불안정성을 보였다. proprietary 모델인 GPT-5 계열에서도 CoT 사용 시 0.65%~1.23%의 성능 저하가 관찰되었다.
추론 모델(MRM)들의 성능은 실망적이었다. 8개 모델 중 Vision-G1을 제외한 모든 모델이 기본 백본 모델인 Qwen2.5-VL-7B의 성능(62.68%)을 넘지 못했다. 이는 강화학습(RL)을 통한 추론 훈련이 시각적 공간 인지 능력 향상으로 이어지지 않았음을 시사한다.
No-Image++ 실험에서는 모델들이 빈 이미지를 보고도 '동굴 입구가 이미지 하단에 보입니다'와 같이 구체적인 좌표와 관계를 환각하는 모습이 포착되었다. 이는 모델이 시각적 증거를 확인(Verification)하기보다 텍스트 지식에 기반해 답변을 끼워 맞추고 있음을 보여준다.
관련 Figure

대부분의 모델(Qwen2.5, InternVL, LLaVA 등)에서 녹색 막대(Non-CoT)가 분홍색 막대(CoT)보다 높게 나타나며, CoT 사용 시 성능이 저하됨을 시각적으로 보여준다. 특히 Qwen3-VL-8B-Thinking 모델조차 비CoT 설정에서 0.64% 더 높은 성능을 기록했다.
다양한 멀티모달 모델에서 CoT 프롬프트와 일반 프롬프트의 정확도를 비교한 막대 그래프이다.
기술 상세
본 연구는 멀티모달 추론 모델이 수학/논리 벤치마크에서는 우수하지만 시각 중심 과제에서는 취약하다는 점을 지적한다. 대다수 MRM이 Qwen2.5-VL-7B-Instruct를 백본으로 사용하며, SFT와 RL 과정을 거치지만 이 과정에서 사용되는 데이터셋이 주로 텍스트 기반 논리에 치중되어 있음을 한계로 꼽는다.
특히 RL 과정에서 보상 모델(Reward Model)이 시각적 정확성보다는 최종 정답의 일치 여부에만 초점을 맞출 경우, 모델이 시각 정보를 무시하고 텍스트 패턴을 찾는 '지름길 학습'을 강화할 수 있다고 분석한다. 이를 해결하기 위해 추론 단계마다 이미지 증거와 대조하는 시각적 검증기(Visual Verifier) 도입을 제안한다.
한계점
본 연구에서 사용된 13개 데이터셋이 시각적 공간 추론 영역 전체를 완벽히 대변하지는 못할 수 있다. 또한 폐쇄형 모델(GPT 시리즈)의 경우 구체적인 학습 데이터를 알 수 없어 CoT 성능 저하의 정확한 원인을 분석하는 데 한계가 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.