핵심 요약
현재의 멀티모달 AI 모델들이 자연스러운 풍경은 잘 이해하지만, 수학 공식이나 화학 구조식 같은 정밀한 기호를 처리할 때 심각한 인지적 결함을 보인다는 점을 규명했다. 모델이 기호를 정확히 인식하지 못하면서도 언어적 확률에 의존해 정답을 맞히는 현상을 분석하여, 더 신뢰할 수 있는 과학적 AI 개발을 위한 방향성을 제시한다.
왜 중요한가
현재의 멀티모달 AI 모델들이 자연스러운 풍경은 잘 이해하지만, 수학 공식이나 화학 구조식 같은 정밀한 기호를 처리할 때 심각한 인지적 결함을 보인다는 점을 규명했다. 모델이 기호를 정확히 인식하지 못하면서도 언어적 확률에 의존해 정답을 맞히는 현상을 분석하여, 더 신뢰할 수 있는 과학적 AI 개발을 위한 방향성을 제시한다.
핵심 기여
대규모 이산 기호 이해 벤치마크 구축
언어, 문화, 수학, 물리, 화학 5개 영역에 걸쳐 13,000개 이상의 이미지-질문 쌍으로 구성된 대규모 평가 프레임워크를 제안하여 MLLM의 기호 처리 능력을 체계적으로 측정했다.
3단계 인지 계층 구조 설계
단순 인식(Level 1), 조합 및 추론(Level 2), 연상 및 비판적 사고(Level 3)로 이어지는 인간의 인지 과정을 모방한 평가 체계를 도입하여 모델의 지능 수준을 다각도로 분석했다.
인지적 불일치 현상 규명
모델이 기초적인 기호 인식에는 실패하면서도 복잡한 추론 작업에서는 성공하는 역설적인 현상을 발견하고, 이것이 실제 시각 지각이 아닌 언어적 확률에 의존한 결과임을 밝혀냈다.
인식-추론 역전 현상 발견
상위 단계의 추론 점수가 하위 단계의 인식 점수보다 높게 나타나는 현상을 통해, 현재 MLLM이 시각적 근거(Visual Grounding) 없이 텍스트 패턴 매칭으로 문제를 해결하고 있음을 증명했다.
핵심 아이디어 이해하기
Transformer 기반의 MLLM은 대규모 이미지-텍스트 쌍을 통해 시각적 특징과 언어적 임베딩 사이의 상관관계를 학습한다. 이 과정에서 모델은 이미지의 전반적인 구도나 주요 객체는 잘 파악하지만, 픽셀 단위의 정밀도가 요구되는 수학 기호나 화학 결합선 같은 미세한 구조적 특징을 놓치기 쉽다. 이는 모델이 이미지를 처리할 때 전체적인 맥락을 파악하는 데 최적화되어 있어, 아주 작은 획 하나로 의미가 변하는 이산 기호의 엄밀성을 유지하지 못하기 때문이다.
본 논문은 모델이 기호를 '보는' 능력(Perception)과 '이해하는' 능력(Reasoning) 사이의 간극을 파고든다. 인간은 기호를 먼저 정확히 인식한 뒤 이를 바탕으로 추론하지만, MLLM은 시각적 인식이 불완전하더라도 학습 데이터에 포함된 언어적 통계 확률을 사용해 정답을 추측하는 방식을 취한다. 예를 들어, 수학 공식의 기호를 정확히 읽지 못해도 문제의 패턴이 익숙하면 기존에 학습한 풀이 과정을 그대로 출력하는 식이다.
이러한 현상은 모델이 실제 시각 정보를 처리하기보다 텍스트 기반의 지식 패턴을 복제하고 있음을 시사한다. 결과적으로 모델은 '보는 것'보다 '아는 척하는 것'에 더 능숙해지며, 이는 과학적 발견이나 정밀한 추론이 필요한 실무 환경에서 심각한 오류를 초래할 수 있다. 진정한 의미의 멀티모달 지능을 구현하기 위해서는 시각적 기초를 강화하고 언어적 지름길에 의존하지 않는 아키텍처 개선이 필요하다.
방법론
5개 도메인(Language, Culture, Math, Physics, Chemistry)을 포괄하는 38개의 하위 작업과 13,000개의 이미지-질문-답변 쌍을 구축했다. 데이터는 기존 공개 데이터셋 추출과 전문가의 수작업 주석을 병합하여 고품질로 구성했다.
인지 단계를 3수준으로 정의하여 평가를 수행했다. Level 1은 개별 기호의 시각적 특징 추출 및 의미 변환을 측정한다. [이미지 픽셀 데이터 입력 → 시각적 특징 추출 및 기호 매핑 연산 → 개별 기호 식별 결과 출력] 과정을 거치며 모델의 순수 지각 능력을 평가한다.
Level 2는 여러 기호의 조합과 도메인 지식을 결합한 추론을 평가한다. [식별된 기호 집합과 연결 관계 입력 → 논리적 규칙 적용 및 상태 추론 연산 → 시스템 수준의 동작/결과 출력]을 통해 기호 간의 구조적 관계 이해도를 측정한다.
Level 3은 오류 탐지 및 문맥 기반의 비판적 사고를 요구한다. [불완전하거나 잘못된 기호 구조 입력 → 문맥적 일관성 검사 및 오류 수정 연산 → 최종 교정 결과 출력]을 수행하며, 이는 모델이 기호의 본질적인 의미를 내재화했는지 확인하는 가장 높은 단계이다.
주요 결과
GPT-4o, Gemini 2.5 Pro, Claude 3.5 Sonnet 등 최신 모델들을 평가한 결과, 모든 모델이 기초적인 기호 인식(Level 1)에서 예상보다 낮은 성능을 보였다. 특히 화학 구조식의 원자 개수를 세거나 물리 회로도의 기호를 식별하는 작업에서 정확도가 30% 이하로 떨어지는 경우가 빈번했다.
'인식-추론 역전' 현상이 뚜렷하게 관찰되었다. 예를 들어, 수학 함수 그래프의 특정 좌표를 읽는 데는 실패하면서도, 해당 그래프가 이차 함수라는 언어적 힌트가 주어지면 복잡한 수식 전개는 성공적으로 수행했다. 이는 모델이 시각 정보보다 텍스트 기반의 사전 지식에 과도하게 의존함을 증명한다.
도메인별로는 자연과학 기호보다 언어적 기호(필기체 중국어 등)에서 더 큰 어려움을 겪었다. 오픈소스 모델인 Qwen2.5-VL 등은 특정 도메인에서 강점을 보였으나, 모든 영역에서 일관되게 우수한 성능을 내는 모델은 존재하지 않았다. 인간 성능과 비교했을 때, 모델들은 특히 시각적 정밀도가 요구되는 기초 단계에서 현저한 격차를 보였다.
실무 활용
수학 교육, 화학 연구 보조, 물리 설계 검토 등 정밀한 기호 이해가 필요한 분야에서 현재 MLLM을 그대로 사용하기에는 위험이 따름을 시사한다. 모델의 답변이 논리적으로 그럴듯하더라도 기초적인 시각 인식이 틀렸을 가능성을 항상 염두에 두어야 한다.
- AI 기반 수학/과학 교육 플랫폼의 문제 풀이 정확도 검증 도구
- 화학 구조식 OCR 및 데이터베이스화 시스템의 품질 평가
- 멀티모달 모델의 시각적 지각 능력 강화를 위한 미세 조정 데이터셋 활용
- 회로도나 기계 도면 분석 AI의 인지적 오류 모니터링
기술 상세
본 연구는 MLLM의 시각적 인코더(주로 ViT 기반)가 이산 기호의 고주파 정보를 보존하지 못하는 '구조적 병목' 현상을 지적한다. 표준 ViT 아키텍처는 이미지를 고정된 크기의 패치로 나누고 전역적 Self-Attention을 수행하는데, 이 과정이 이산 기호에 대해서는 공간적 저역 통과 필터(Low-pass filter)처럼 작동하여 미세한 선이나 연결 정보를 흐릿하게 만든다.
'Cognitive Mismatch' 프레임워크는 Bloom의 교육 목표 분류학과 기호학 이론을 결합하여 설계되었다. 기표(Signifier)와 기의(Signified) 사이의 매핑 과정을 단계별로 분해하여 모델의 인지적 결함 지점을 정밀하게 식별한다. 이는 모델이 단순히 정답을 맞히는지 여부를 넘어, 어떤 인지 단계에서 실패가 발생하는지 진단할 수 있게 한다.
실험 분석에서 '언어적 지름길'의 존재를 확인했다. 모델이 시각적 증거가 부족할 때 훈련 데이터의 텍스트 통계에 의존하여 답변을 생성하는 현상으로, 이는 멀티모달 학습에서 시각 모달리티가 소외되는 모달리티 붕괴의 일종으로 해석된다. 특히 화학의 골격 구조식이나 물리의 회로도처럼 정보 밀도가 높은 데이터에서 이 현상이 두드러졌다.
향후 연구 방향으로 이산 기호 형성을 명시적으로 학습 목표에 포함하거나, 시각과 추론 모듈 사이의 반복적인 피드백 루프를 구축하는 아키텍처 개선안을 제안한다. 또한 시각적 인코더의 해상도를 높이거나 기호의 위상적 무결성을 보존할 수 있는 새로운 토큰화 방식의 필요성을 강조한다.
한계점
모델이 왜 특정 기호에서 더 취약한지에 대한 아키텍처 수준의 심층적인 이론적 증명보다는 벤치마크 결과 분석에 치중되어 있다. 또한, 제안된 벤치마크가 모든 가능한 기호 체계를 포괄하지는 못하며, 주로 정적인 이미지 기반의 평가에 국한되어 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료