의미론적 풍부함인가 기하학적 추론인가? VLM 시각적 불변성의 취약성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

최신 시각-언어 모델(VLM)이 사물을 인식할 때 실제 기하학적 구조를 이해하기보다 학습 데이터에서 본 익숙한 모습에만 의존한다는 사실을 밝혀냈다. 이는 로봇 공학이나 자율주행처럼 정밀한 공간 파악이 필요한 실무 환경에서 모델의 신뢰성에 큰 의문을 제기하며, 향후 멀티모달 모델이 나아가야 할 연구 방향을 제시한다.

왜 중요한가

최신 시각-언어 모델(VLM)이 사물을 인식할 때 실제 기하학적 구조를 이해하기보다 학습 데이터에서 본 익숙한 모습에만 의존한다는 사실을 밝혀냈다. 이는 로봇 공학이나 자율주행처럼 정밀한 공간 파악이 필요한 실무 환경에서 모델의 신뢰성에 큰 의문을 제기하며, 향후 멀티모달 모델이 나아가야 할 연구 방향을 제시한다.

핵심 기여

VLM의 기하학적 불변성 결여 입증

최신 VLM들이 회전, 크기 조절 등 기본적인 기하학적 변환이 적용된 이미지에서 동일성을 식별하는 데 심각한 어려움을 겪음을 체계적으로 증명했다.

의미론적 풍부함에 따른 성능 상관관계 분석

실제 사진처럼 정보가 많은 이미지에서는 잘 작동하지만, 스케치나 낯선 문자와 같이 의미론적 정보가 적은 데이터에서는 성능이 급격히 하락하는 '의미론적 앵커' 의존성을 확인했다.

시각 인코더와 언어 디코더 간의 불일치 발견

SigLIP 같은 시각 인코더는 변환된 이미지에 대해 유사한 특징값을 생성함에도 불구하고, 언어 디코더와 결합된 전체 VLM 시스템에서는 이 정보를 제대로 활용하지 못함을 밝혀냈다.

핵심 아이디어 이해하기

기존의 Transformer 기반 VLM은 대규모 데이터셋을 통해 사물의 전형적인 형태를 학습하며, 이를 고차원 공간의 Embedding으로 변환하여 이해한다. 하지만 인간이 낯선 글자를 볼 때 선의 각도와 위상 정보를 분석하여 기하학적으로 추론하는 것과 달리, VLM은 자신이 이미 알고 있는 '정방향'의 사물 레이블에 강하게 결합되어 있다.

이 논문은 VLM이 사물의 본질적인 기하학적 구조를 파악하는 것이 아니라, 통계적으로 익숙한 시각적 패턴(Semantic Cues)을 일종의 지름길로 활용하고 있음을 지적한다. 예를 들어, '강아지' 사진은 회전되어도 주변 배경이나 털의 질감 등 풍부한 힌트 덕분에 인식하지만, 단순한 선으로 이루어진 스케치나 낯선 문자는 이러한 '의미론적 앵커'가 없어 기하학적 추론만으로는 동일성을 판단하지 못한다.

결과적으로 현재의 VLM은 시각적 특징을 추출하는 인코더 단계에서는 변환 불변성을 어느 정도 유지하지만, 이를 언어적으로 해석하는 디코더 단계에서 기하학적 원리를 무시하고 익숙한 데이터 분포로 편향된 판단을 내리는 한계를 보인다.

방법론

연구팀은 Omniglot(손글씨 문자), PACS(사진, 예술, 만화, 스케치), Times New Roman 및 Handwritten English 데이터셋을 활용하여 모델의 기하학적 추론 능력을 테스트했다. 주요 변환으로는 Rotation(회전), Scaling(크기 조절), Identity Matching(동일성 확인)을 설정했다.

실험은 두 개의 이미지 (I, I')를 입력으로 주어 동일한 대상인지 묻는 방식으로 진행됐다. Rotation task의 경우 10도에서 270도까지 다양한 각도를 적용했으며, Scaling task는 0.1배에서 0.9배까지 크기를 줄여 입력했다. 모델이 'Yes' 또는 'No'로 답하게 하여 Accuracy, TPR(True Positive Rate), TNR(True Negative Rate)을 측정했다.

시각 인코더의 독립적인 성능을 측정하기 위해 CLIP, DINOv2, SigLIP, Qwen2.5-VL-7B의 인코더에서 추출된 특징 벡터 간의 Cosine Similarity를 계산했다. [두 이미지의 특징 벡터 A, B가 주어질 때 (A·B) / (||A||||B||) 연산을 수행하여] → [0에서 1 사이의 유사도 값을 얻고] → [이 값이 1에 가까울수록 인코더가 두 이미지를 기하학적 변환과 상관없이 동일하게 인식함을 의미한다].

주요 결과

Gemini-2.5-Pro의 경우, 실제 사진(Photo)에서의 회전 인식 정확도는 92.67%에 달했으나, 의미론적 정보가 적은 상징적 스케치(Symbolic Sketches)에서는 76.49%로 급락했다. 특히 회전(Rotation) 작업에서 모든 모델이 가장 낮은 성능을 보였으며, 이는 모델이 'No'라고 대답하려는 강한 편향(Bias)을 가지고 있기 때문으로 분석됐다.

Qwen2.5-VL-32B 모델은 사진에서 55.33%의 TPR을 기록했으나 스케치에서는 14.50%로 떨어졌다. 이는 모델의 크기(Scale)를 키우는 것만으로는 기하학적 추론 능력이 근본적으로 개선되지 않음을 시사한다. 반면, 시각 인코더 단독으로는 회전된 이미지에 대해 높은 유사도를 유지하고 있어, 문제는 인코더가 아닌 언어 디코더와의 결합 과정에서 발생함이 확인됐다.

In-Context Learning(ICL)이나 Rotational Grid 프롬프트를 사용했을 때 일부 성능 향상이 있었으나, 이는 변별력을 높이기보다는 모델을 더 '긍정적'으로 대답하게 만들어 오탐지(False Positive)를 늘리는 부작용을 낳았다. GPT-5.2 역시 회전된 문자에 대해 97.87%의 TPR을 보였으나 TNR이 72.34%로 떨어지며 확인 편향을 드러냈다.

기술 상세

본 연구는 VLM의 시각적 backbone인 Vision Transformer(ViT)가 본질적으로 변환 불변성(Invariance)을 갖지 않는다는 점에 주목한다. CNN과 달리 ViT는 아키텍처 수준에서 이동 불변성을 보장하지 않으며, 학습을 통해 이러한 성질이 발현(Emergent)되기를 기대해야 한다.

실험 결과, SigLIP과 같은 최신 인코더는 특징 공간(Feature Space)에서 회전된 이미지에 대해 높은 Cosine Similarity를 유지하지만, 이를 텍스트로 디코딩하는 과정에서 정보 손실이 발생한다. 이는 멀티모달 정렬(Alignment) 과정에서 기하학적 세부 사항보다 언어적 레이블에 더 높은 가중치를 두도록 학습되었기 때문일 가능성이 크다.

또한 'Perimetric Complexity'(둘레의 제곱을 면적으로 나눈 값) 분석을 통해, 문자의 시각적 복잡도와 모델 성능 사이에는 유의미한 상관관계가 없음(-0.18)을 밝혀냈다. 즉, 모델이 못 맞추는 이유는 문자가 복잡해서가 아니라 단순히 '학습 데이터에서 본 적 없는 낯선 형태'이기 때문이라는 결론에 도달한다.

한계점

본 연구는 주로 회전, 크기 조절, 동일성 확인이라는 세 가지 기본 변환에 집중했으며, 아핀 변환(Affine transformation)이나 투영 변환(Projective transformation)과 같은 더 복잡한 기하학적 변화는 다루지 않았다. 또한 폐쇄형 모델(Gemini, GPT 등)의 경우 내부 학습 데이터나 아키텍처를 알 수 없어 성능 하락의 정확한 원인을 파악하는 데 한계가 있다.

실무 활용

현재의 VLM을 로봇 제어나 정밀 의료 영상 분석 등 공간적 정확도가 중요한 실무에 투입할 때 주의가 필요함을 시사한다. 모델이 사물의 의미는 이해해도 그 배향(Orientation)이나 기하학적 관계를 오판할 가능성이 높기 때문이다.

로봇 팔의 물체 파지(Grasping) 시 물체의 회전 각도에 따른 오작동 가능성 점검
다양한 각도에서 촬영된 산업용 부품의 동일성 검사 시스템 구축 시 벤치마크로 활용
VLM 기반의 OCR 시스템에서 기울어지거나 뒤집힌 텍스트 인식 오류 디버깅

코드 공개 여부: 비공개

키워드

VLM(시각-언어 모델)Geometric-Invariance(기하학적 불변성)Spatial-Reasoning(공간 추론)Semantic-Anchor(의미론적 앵커)Omniglot(옴니글롯 데이터셋)