핵심 요약
멀티모달 모델이 내부 잠재 상태를 통해 상상하며 추론한다는 기존 가설이 실제로는 결과에 거의 영향을 미치지 않는 단절 상태임을 입증했다. 대신 텍스트로 시각적 변화를 명시적으로 묘사하는 방식이 훨씬 더 강력하고 해석 가능한 추론 성능을 보여줌으로써 향후 모델 설계의 새로운 방향을 제시한다.
왜 중요한가
멀티모달 모델이 내부 잠재 상태를 통해 상상하며 추론한다는 기존 가설이 실제로는 결과에 거의 영향을 미치지 않는 단절 상태임을 입증했다. 대신 텍스트로 시각적 변화를 명시적으로 묘사하는 방식이 훨씬 더 강력하고 해석 가능한 추론 성능을 보여줌으로써 향후 모델 설계의 새로운 방향을 제시한다.
핵심 기여
잠재 시각 추론의 인과성 결여 입증
인과 매개 분석을 통해 입력-잠재 토큰 및 잠재 토큰-최종 답변 간의 심각한 단절 현상을 발견했다. 입력이 바뀌어도 잠재 토큰은 거의 변하지 않으며, 잠재 토큰을 변조해도 최종 답변에 미치는 영향이 미미함을 확인했다.
잠재 토큰의 정보 퇴화 현상 규명
잠재 토큰들이 서로 매우 높은 코사인 유사도를 보이며 동질화되는 현상을 발견했다. 프로빙 분석 결과, 이 토큰들은 시각적 정보를 거의 인코딩하지 못하며 단순한 자리 표시자(Placeholder) 역할에 그치고 있음이 나타났다.
텍스트 공간 상상 방법론 CapImagine 제안
잠재 공간 대신 텍스트 공간에서 시각적 조작(확대, 강조 등)을 명시적으로 묘사하는 상상 기법을 도입했다. 이를 통해 모델이 추론 과정을 언어적으로 구체화하도록 유도하여 인과적 연결성을 강화했다.
시각 중심 벤치마크 성능 개선
HR-Bench, MME-RealWorld-Lite 등 주요 벤치마크에서 기존 잠재 공간 기반 모델인 Monet 대비 최대 4.9%의 성능 향상을 달성하며 텍스트 기반 상상의 우월성을 증명했다.
핵심 아이디어 이해하기
기존 멀티모달 모델들은 Transformer의 Hidden State를 '잠재 토큰'으로 간주하고, 이를 통해 내부적으로 상상하며 문제를 푼다고 믿어왔다. 하지만 이는 마치 사람이 눈을 감고 생각하는 척하지만 실제로는 아무런 시각적 정보도 떠올리지 못하는 것과 같다. 연구진은 이 잠재 토큰들이 입력 데이터의 변화에 민감하게 반응하지 않고, 결과 생성에도 기여하지 못하는 '정보의 붕괴' 상태에 있음을 확인했다.
이 문제를 해결하기 위해 논문은 상상의 무대를 잠재 공간에서 텍스트 공간으로 옮겼다. 모델이 '이미지의 이 부분을 확대하면 무엇이 보일까?'라는 질문에 대해 모호한 벡터 대신 '빨간 사각형으로 표시된 영역에는 1975년 수치가 적혀 있다'와 같은 구체적인 문장을 생성하게 만든다. 이는 모델이 추론의 근거를 명확한 언어적 임베딩으로 고정하게 하여, 다음 답변을 생성할 때 실제 시각적 단서를 활용하도록 강제한다.
결과적으로 모델은 보이지 않는 내부 공간에서 헤매는 대신, 스스로 생성한 텍스트 묘사를 징검다리 삼아 최종 답변에 도달한다. 이러한 방식은 모델의 추론 과정을 인간이 읽을 수 있게 만들어 해석 가능성을 높일 뿐만 아니라, 복잡한 고해상도 이미지 분석에서 훨씬 더 정교한 판단을 가능하게 한다.
방법론
Causal Mediation Analysis를 통해 모델의 추론 경로를 분석한다. 입력 X, 잠재 토큰 Z, 답변 Y로 구성된 인과 사슬에서 P(Z|do(X))와 P(Y|do(Z))를 측정한다. [입력 시퀀스 X를 무작위로 변경 → 잠재 토큰 Z의 변화량 계산 → 코사인 유사도가 0.99 이상으로 유지됨 → 입력과 잠재 토큰 간의 단절 확인] 순으로 분석을 수행한다.
CapImagine 데이터 구축을 위해 Monet-SFT-125K 데이터를 재구성한다. Qwen3-VL-4B를 활용해 중간 시각 조작 과정을 텍스트 캡션으로 변환한다. [원본 이미지와 조작된 이미지 쌍 입력 → 두 이미지의 시각적 차이점을 텍스트로 기술 → 추론 체인에 삽입 → 최종 답변과의 논리적 일관성 검증] 과정을 거쳐 17K개의 고품질 학습 데이터를 선별한다.
학습 단계에서는 Qwen2.5-VL-7B를 백본으로 사용하며, <think_image>와 </think_image> 태그 사이에 텍스트 상상 내용을 배치하는 CoT(Chain-of-Thought) 방식으로 파인튜닝한다. 이를 통해 모델이 시각적 보조 도구 없이도 텍스트만으로 내부적인 시각 시뮬레이션을 수행하도록 학습시킨다.
주요 결과
메인 벤치마크인 V*에서 CapImagine은 85.9%의 정확도를 기록하여 기존 SOTA 모델인 Monet(83.3%)과 LVR(81.7%)을 유의미하게 앞질렀다. 특히 고해상도 시각 인지 능력을 측정하는 HR-Bench-8K에서는 70.7%를 달성하며 Monet 대비 4.0% 이상의 성능 향상을 보였다.
Ablation Study 결과, 데이터 필터링 과정을 제거했을 때 성능이 하락하는 것을 확인하여 데이터 품질 관리의 중요성을 입증했다. 또한 텍스트 상상 내용을 무작위로 변조했을 때 최종 답변의 정확도가 급격히 떨어지는 현상을 통해, 잠재 토큰 방식과 달리 CapImagine은 중간 상상 내용이 답변 생성에 결정적인 인과적 역할을 수행함을 확인했다.
효율성 분석 측면에서 CapImagine은 텍스트 시퀀스가 길어짐에도 불구하고, 도구 활용 방식(DeepEyes)보다 약 2배 빠른 추론 속도를 기록했다. 이는 외부 도구 호출이나 이미지 재처리에 드는 비용 없이 텍스트 생성만으로 유사한 효과를 낼 수 있음을 시사한다.
기술 상세
본 연구는 잠재 공간 기반 추론(LVR)의 고질적인 문제인 'Latent Collapse'를 지적한다. 실험 결과, 모델이 autoregressive하게 토큰을 생성할수록 잠재 토큰들이 급격히 동질화되어 정보 가치를 잃는 현상이 관찰됐다. [잠재 토큰 Z_i와 Z_{i+1} 간의 내적 계산 → 층이 깊어질수록 유사도 급증 → 정보 엔트로피 감소 → 입력 신호 소실]의 메커니즘이 확인됐다.
CapImagine 아키텍처는 이러한 붕괴를 방지하기 위해 이산적인(Discrete) 텍스트 토큰을 매개체로 사용한다. 텍스트 토큰은 어휘 사전의 명확한 경계를 가지므로 잠재 벡터처럼 모호하게 수렴하지 않는다. 구현 시 Qwen2.5-VL의 시각 인코더와 언어 모델 사이의 정렬된 임베딩 공간을 활용하여, 텍스트 묘사가 시각적 특징을 효과적으로 대체하도록 설계했다.
학습 데이터 필터링에는 MLLM-as-a-judge 기법을 도입했다. 생성된 텍스트 상상이 원본 질문과 충돌하거나 답변 도출에 도움이 되지 않는 사례를 자동 필터링하여, 125K개의 원본 데이터 중 최적의 17K개만을 추출해 학습 안정성을 확보했다.
한계점
텍스트 기반 상상은 잠재 토큰 방식보다 생성해야 할 토큰 수가 많아져 추론 지연 시간(Latency)이 증가하는 단점이 있다. 또한 자연어의 표현 한계로 인해 고차원 잠재 공간이 이론적으로 담을 수 있는 미세한 시각적 뉘앙스를 완벽히 대체하지 못할 가능성이 존재한다.
실무 활용
고해상도 이미지의 미세한 세부 정보를 분석해야 하는 실무 환경에서 모델의 추론 과정을 투명하게 확인하고 정확도를 높이는 데 활용 가능하다. 별도의 시각 보조 도구 없이 텍스트 생성만으로 시각적 상상을 구현하므로 시스템 복잡도를 낮출 수 있다.
- 의료 영상 분석 시 특정 병변 부위를 텍스트로 상세 묘사하며 진단 근거 제시
- 복잡한 설계도면이나 차트에서 미세한 수치 변화를 텍스트로 상상하며 비교 분석
- 자율 주행 시스템에서 가려진 객체의 위치를 텍스트로 예측하며 경로 계획 수립
- 법률/문서 분석 시 고해상도 스캔본의 작은 글씨를 텍스트로 복원하며 내용 파악
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.