VLM-SubtleBench: 시각 언어 모델은 인간 수준의 미세한 비교 추론 능력에 얼마나 도달했는가?

왜 중요한가

산업용 불량 검출이나 의료 영상 판독처럼 아주 미세한 시각적 차이를 구분해야 하는 실무 환경에서 현재 AI 모델들의 한계를 명확히 짚어준다. 기존 벤치마크들이 너무 쉬운 차이만 다뤘던 것과 달리, 인간은 쉽게 풀지만 AI는 고전하는 13,000개의 고난도 문제를 통해 차세대 시각 지능의 발전 방향을 제시한다.

핵심 기여

VLM-SubtleBench 구축

10가지 미세 차이 유형과 6가지 도메인을 아우르는 13,000개의 이미지 쌍 및 질문-답변 데이터셋을 구축함.

다양한 실무 도메인 확장

자연 이미지뿐만 아니라 산업 검수, 항공 감시, 의료 영상 등 전문적인 도메인을 포함하여 모델의 실제 활용 가능성을 평가함.

모델-인간 성능 격차 확인

최신 모델인 GPT-5-thinking조차 공간, 시간, 시점 추론 영역에서 인간보다 30%p 이상 낮은 성능을 보임을 입증함.

프롬프트 전략 및 통제 실험 분석

Chain-of-Thought(CoT)나 이미지 하이라이팅 등 다양한 기법이 미세 비교 성능에 미치는 영향을 체계적으로 분석하고, 객체 수와 크기에 따른 성능 저하 지점을 포착함.

핵심 아이디어 이해하기

기존 Vision-Language Model(VLM)은 주로 단일 이미지의 내용을 설명하거나 확연히 다른 두 이미지의 차이를 찾는 데 집중해왔다. 이는 이미지 내 객체의 특징을 벡터 공간에 Embedding하고 이를 텍스트와 매핑하는 기초적인 Attention Mechanism만으로도 어느 정도 해결 가능했다. 하지만 실제 산업 현장에서는 거의 동일해 보이는 두 이미지 사이의 아주 작은 픽셀 변화나 논리적 순서를 파악해야 하는 한계가 존재한다.

이러한 한계를 극복하기 위해 본 논문은 미세함(Subtlety)을 정량화한다. DINOv3와 같은 강력한 시각 모델의 특징 벡터 유사도가 0.8 이상인 매우 유사한 이미지 쌍을 선별하여, 모델이 단순한 시각적 특징 추출을 넘어 고차원적인 비교 추론을 수행하도록 강제한다. 이는 모델이 두 이미지의 Attention Map을 동시에 비교하며 미세한 변화가 발생한 특정 영역에 집중해야 함을 의미한다.

실험 결과, 현재의 VLM들은 객체의 존재 여부나 감정 변화는 비교적 잘 파악하지만, 카메라의 시점 변화나 사건의 시간적 순서와 같은 추상적 개념을 시각 정보와 결합하는 데 큰 어려움을 겪는다. 이는 단순한 데이터 증강을 넘어, 시공간적 관계를 이해하는 새로운 Architecture나 학습 전략이 필요함을 시사한다.

방법론

데이터셋 큐레이션 파이프라인은 규칙 기반 선택, 인간 주석 기반 페어링, 모델 보조 생성의 세 가지 경로를 혼합하여 구축됐다. 예를 들어 Attribute(속성) 유형에서는 COCO 데이터셋에서 객체를 추출한 뒤 GPT-4o로 대체 색상을 제안받고, Gemini-2.5-flash-image-preview를 사용해 미세하게 수정된 이미지를 생성하는 방식을 취한다.

10가지 차이 유형(Attribute, State, Emotion, Temporal, Spatial, Existence, Quantity, Quality, Viewpoint, Action)을 정의하고, 각 유형별로 난이도를 조절할 수 있는 Synthetic Data 생성기를 개발했다. [이미지 생성 파라미터 → 렌더링 엔진 → 픽셀 변화량 제어] 순으로 연산하여 모델이 실패하는 임계값을 정밀하게 측정한다.

평가를 위해 Multiple-Choice VQA와 Captioning 두 가지 태스크를 설정했다. Captioning 성능 측정 시에는 SentenceTransformer(paraphrase-MiniLM-L6-v2)를 사용하여 모델 생성 문장과 정답 문장 사이의 Cosine Similarity를 계산한다. [두 문장의 임베딩 벡터 u, v 입력 → u·v / (|u||v|) 연산 → 0~1 사이 유사도 출력] 과정을 통해 의미적 일치도를 평가한다.

주요 결과

성능 평가 결과, GPT-5-thinking이 평균 77.8%의 정확도로 가장 높은 성능을 기록했으나, 인간의 평균 성능인 95.5%에는 여전히 크게 못 미치는 것으로 나타났다. 특히 Temporal(시간), Spatial(공간), Viewpoint(시점) 영역에서는 인간과의 격차가 30%p 이상 벌어졌다.

오픈소스 모델 중에서는 Qwen2.5-VL-72B가 65.4%로 가장 우수한 성능을 보였으며, 이는 일부 유료 모델인 GPT-4o(61.6%)나 Claude-sonnet-4(62.6%)를 상회하는 수치이다. 하지만 모든 모델이 객체의 크기가 작거나 개수가 많아질수록 성능이 급격히 저하되는 경향을 보였다.

프롬프트 전략 실험에서는 답변 전 추론 단계를 추가하는 Reasoning(CoT) 방식이 10개 도메인 중 9개에서 성능 향상을 가져왔다. 반면, 두 이미지를 단순히 가로로 이어 붙이는 Concat 방식은 오히려 성능을 저하시키는 경우가 많아, VLM의 다중 이미지 처리 인터페이스 개선이 필요함을 확인했다.

실무 활용

제조 공정의 이상 탐지, 의료 영상의 시계열 변화 분석, 자율주행 시점 변화 인지 등 미세한 시각적 판단이 필요한 AI 에이전트 개발 및 평가에 직접 활용될 수 있다.

제조 라인에서 부품의 미세한 균열이나 조립 불량을 잡아내는 검수 AI 성능 평가
동일 환자의 과거와 현재 X-ray 영상을 비교하여 질병 진행 상태를 판단하는 의료 보조 도구 개발
항공/위성 사진의 미세한 변화를 감지하여 불법 건축물이나 지형 변화를 추적하는 모니터링 시스템
게임 내 캐릭터의 미세한 동작 변화를 감지하여 반응하는 지능형 게임 에이전트 학습

기술 상세

VLM-SubtleBench는 기존 MLLM-CompBench의 한계를 극복하기 위해 DINOv3 유사도 기반의 Subtlety Metric을 도입했다. 평균 유사도가 0.8 이상인 쌍으로만 구성하여 모델의 Perceptual Discrimination 능력을 극한으로 테스트한다.

벤치마크는 13K의 VQA 쌍과 1.2K의 인간 작성 비교 캡션으로 구성된다. 데이터 소스는 MVTEC-AD(산업), MIMIC-Diff-VQA(의료), LEVIR-MCI(항공), YT8M(자연 영상) 등 실제 도메인 데이터셋을 재가공하여 현실 세계의 복잡성을 반영했다.

모델 평가 시 GPT-4o를 Judge로 활용하는 LLM-as-a-judge 방식을 채택하여 캡션의 정답 여부를 판별한다. [참조 캡션과 생성 캡션 입력 → GPT-4o의 논리적 비교 → Yes/No 출력] 과정을 통해 단순 문자열 매칭의 한계를 보완한다.

합성 데이터를 활용한 통제 실험(Controlled Evaluation) 결과, 모델은 밝기 변화가 25% 이상일 때만 안정적인 성능을 보였으며, 객체 수가 32개를 넘어가면 정확도가 60% 이하로 급락하는 Complexity Bottleneck 현상이 관찰됐다.

한계점

공간적(Spatial) 및 시간적(Temporal) 추론 영역에서 파인튜닝을 통한 성능 향상이 다른 영역에 비해 미미하며, 이는 모델 아키텍처 자체의 근본적인 시공간 표현 능력 부족을 시사한다.

키워드

VLM(시각 언어 모델)Comparative Reasoning(비교 추론)Benchmark(벤치마크)Visual Similarity(시각적 유사도)Fine-grained Perception(미세 지각)