핵심 요약
현재의 멀티모달 AI 모델들이 단순히 이미지를 묘사하는 수준을 넘어, 인간처럼 머릿속으로 물체를 회전시키거나 복잡한 패턴을 추론하는 능력이 있는지를 엄격하게 검증합니다. 인간과 AI 사이의 거대한 인지적 격차를 수치로 증명하여, 차세대 AI가 나아가야 할 시공간 추론 연구 방향을 제시합니다.
왜 중요한가
현재의 멀티모달 AI 모델들이 단순히 이미지를 묘사하는 수준을 넘어, 인간처럼 머릿속으로 물체를 회전시키거나 복잡한 패턴을 추론하는 능력이 있는지를 엄격하게 검증합니다. 인간과 AI 사이의 거대한 인지적 격차를 수치로 증명하여, 차세대 AI가 나아가야 할 시공간 추론 연구 방향을 제시합니다.
핵심 기여
ART Taxonomy 기반의 Mind’s Eye 벤치마크 구축
추상화(Abstraction), 관계(Relation), 변환(Transformation)이라는 세 가지 인지적 차원을 축으로 하는 8가지 시각적 추론 과제를 설계했다. 고전적인 지능 검사에서 영감을 받아 설계되었으며, 언어적 편향을 배제하기 위해 프로그램 방식으로 생성된 SVG 이미지를 사용한다.
18종의 MLLM 성능 평가 및 인간과의 격차 확인
GPT-4o, Gemini-2.5 Pro 등 최신 모델을 포함한 18종의 모델을 평가한 결과, 인간의 평균 정확도는 80%에 달하는 반면 최고 성능의 모델도 50%를 넘지 못했다. 특히 난이도가 높아질수록 성능이 급격히 떨어지는 인간과 달리, 모델들은 난이도와 상관없이 일관되게 낮은 성능을 보였다.
시각적 주의력 및 추론 과정의 오류 분석
Attention 분석을 통해 모델이 정답과 관련된 영역을 식별할 수는 있지만, 그 정보를 바탕으로 올바르게 추론하는 데 실패한다는 점을 밝혀냈다. 또한 프롬프트 기법이 추상화 과제에는 도움이 되지만, 시각적 시뮬레이션이 필요한 변환 과제에서는 오히려 성능을 저하시키는 현상을 발견했다.
핵심 아이디어 이해하기
인간은 종이접기 도면을 보고 완성된 모양을 상상하거나, 복잡한 기하학적 패턴에서 규칙을 찾아내는 '유동적 지능'을 가지고 있다. 기존의 멀티모달 모델 평가는 주로 이미지 속 물체를 찾거나 글자를 읽는 '지각적 인코딩'에 집중해 왔으나, 이는 모델이 실제로 공간을 이해하는지 아니면 학습 데이터의 통계적 패턴을 복제하는지 구분하기 어렵게 만든다.
본 연구는 Transformer의 Attention 메커니즘이 시각적 특징을 추출하는 데는 뛰어나지만, 추출된 특징들 사이의 추상적인 관계를 설정하거나 정신적으로 조작하는 '내부 시뮬레이션' 능력이 부족하다는 가설에서 출발한다. 즉, 모델은 이미지의 '어디를 봐야 할지'는 알지만, '그것을 보고 어떻게 생각해야 할지'에 대한 논리적 구조가 결여되어 있다는 것이다.
이를 검증하기 위해 연구진은 언어적 힌트가 전혀 없는 순수 기하학적 이미지를 생성하고, 모델이 단계별로 시각적 상태를 변화시켜야만 풀 수 있는 과제들을 제시했다. 결과적으로 모델의 파라미터 크기를 키우는 것만으로는 이러한 인지적 한계를 극복할 수 없으며, 시각적 정보를 논리적 개념으로 추상화하는 새로운 아키텍처적 접근이 필요함을 시사한다.
방법론
Mind’s Eye 벤치마크는 8개의 과제로 구성되며, 각 과제는 ART Taxonomy에 따라 분류된다. Abstraction(VRA, HPE)은 잠재적 규칙 유도, Relation(DSC, VCS, SS)은 구조적 대응 매핑, Transformation(MT, PF, MC)은 정신적 시뮬레이션을 요구한다.
모든 시각 자극은 SVG(Scalable Vector Graphics)를 통해 프로그램 방식으로 생성된다. 이는 [구조적 파라미터 입력 → 결정론적 알고리즘 연산 → 기하학적 이미지 출력] 과정을 거치며, 색상이나 레이아웃과 같은 무관한 변수를 통제하여 모델이 꼼수를 쓰지 못하도록 설계했다.
평가 파이프라인은 3단계로 구성된다. [이미지 및 질문 입력 → 후보 모델의 자유 형식 답변 생성 → Gemma-3 기반의 Answer Extractor를 통한 정답 추출] 순으로 진행된다. 특히 오답 선택지(Distractors)는 거울상 반전, 잘못된 회전 각도 등 특정 추론 오류를 진단할 수 있도록 정교하게 설계되었다.
관련 Figure

추상화, 관계, 변환이라는 세 가지 카테고리별로 모델이 풀어야 할 구체적인 기하학적 문제들을 보여준다. 각 패널은 모델이 단순히 사물을 인식하는 것을 넘어 공간적 변화를 예측해야 함을 시각적으로 설명한다.
Mind’s Eye 벤치마크를 구성하는 8가지 시각적 추론 과제의 예시 이미지와 질문들이다.

벤치마크가 Abstraction, Relation, Transformation 세 영역에 걸쳐 8개의 세부 과제로 균형 있게 구성되어 있음을 보여준다. 이는 인지 능력을 다각도에서 평가하기 위한 설계 의도를 반영한다.
ART 프레임워크에 따른 데이터셋의 구조적 분포를 보여주는 도넛 차트이다.
주요 결과
인간 참가자는 모든 과제에서 평균 80%의 정확도를 기록했으나, 최고 성능의 MLLM인 Gemini-2.5 Pro조차 50% 미만의 성적을 거두었다. 특히 Transformation 영역의 Mental Composition 과제에서 모델들은 무작위 추측에 가까운 성능을 보였다.
모델 크기와 성능의 상관관계를 분석한 결과, 파라미터 수가 증가함에 따라 성능이 일부 향상되기는 하지만 그 관계는 완만했다(Pearson’s r ≈ 0.62). Qwen-2.5-VL 32B와 같은 중간 규모 모델이 더 큰 모델보다 특정 추상화 과제에서 우수한 성능을 보이기도 하여, 단순 스케일링이 시공간 추론의 해답이 아님을 보여주었다.
프롬프트 전략 실험에서는 Meta-task Framing이나 Step-by-Step 지침이 Abstraction 과제에서는 약 1.3%p의 성능 향상을 가져왔으나, Transformation 과제에서는 오히려 성능을 저하시켰다. 이는 텍스트 기반의 논리적 유도가 시각적 시뮬레이션 과정을 대체하지 못함을 의미한다.
관련 Figure

모델별로 강점과 약점이 뚜렷하게 나타나며, 전반적으로 Transformation 영역(오른쪽)에서 점수가 낮음을 알 수 있다. 상위 모델들도 특정 과제에서는 매우 낮은 성능을 보여 모델의 인지적 불균형을 증명한다.
다양한 MLLM 모델들의 과제별 정확도를 나타낸 히트맵이다.
기술 상세
Mind’s Eye는 Carroll의 3층 지능 이론(Three-Stratum Theory)을 기반으로 설계된 최초의 MLLM 전용 인지 벤치마크이다. 기존의 벤치마크들이 지각적 인코딩에 치중한 것과 달리, 본 연구는 시각적 작업 기억(Visual Working Memory)과 형상 추론(Figural Reasoning)을 독립적으로 측정한다.
연구팀은 Q-matrix 청사진을 도입하여 각 과제가 어떤 인지적 기술(회전, 위상, 매핑 등)과 연결되는지 수학적으로 정의했다. 이를 통해 모델의 실패가 단순한 지각 오류인지, 아니면 고차원적인 인지 조작의 부재인지를 구분할 수 있는 통계적 기반을 마련했다.
Attention Heatmap 분석 결과, 모델의 정답 영역에 대한 Attention 점수(OAS)와 정확도 사이에는 양의 상관관계(rpb = 0.34)가 존재하지만, Attention이 정확히 정렬된 경우에도 인간의 성능에 크게 못 미쳤다. 이는 모델이 '어디를 볼지'는 학습했지만 '본 것을 어떻게 처리할지'에 대한 내부 회로가 부족함을 기술적으로 증명한다.
한계점
본 벤치마크는 2D 렌더링된 이미지를 기반으로 3D 추론을 유도하므로, 실제 3D 입력 환경에서의 성능과는 차이가 있을 수 있다. 또한 객관식 평가 방식을 채택하고 있어 모델의 생성적 추론 과정을 완전히 파악하는 데는 한계가 있다.
실무 활용
본 연구는 현재 MLLM의 시공간 추론 한계를 명확히 규명함으로써, 로보틱스나 정밀 설계 등 고도의 시각적 이해가 필요한 분야의 AI 개발자들에게 중요한 가이드라인을 제공합니다.
- 자율 주행 및 로봇 제어 시스템의 공간 인지 능력 검증
- CAD/설계 도면의 3D 구조 이해 및 변환 모델 평가
- 시각 장애인 보조 AI의 복잡한 공간 상황 설명 능력 테스트
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.