핵심 요약
지칭 표현 이해(Referring Expression Comprehension, REC)는 언어를 영역 수준의 시각적 지각(Visual Perception)과 연결합니다. RefCOCO, RefCOCO+, RefCOCOg와 같은 표준 벤치마크는 멀티모달 대형 언어 모델(Multimodal LLM, MLLM)과 함께 빠르게 발전해 왔으나, 시각적 추론(Visual Reasoning) 및 그라운딩(Grounding) 테스트로서는 여전히 취약합니다. 그 이유는 (i) 많은 표현이 매우 짧아 추론 요구 사항이 거의 없고, (ii) 이미지에 방해 요소(Distractor)가 적어 대상을 찾기 쉬우며, (iii) 중복된 기술어(Descriptor)가 실제 텍스트 이해와 시각적 추론을 우회하는 지름길 해결책(Shortcut solution)을 허용하기 때문입니다. 본 연구에서는 대상을 고유하게 식별하는 데 필요한 정보만을 포함하면서도 언어적으로 복잡한 표현을 결합하여 지름길 학습을 억제하는 현대적인 REC 벤치마크인 Ref-Adv를 소개합니다. 이 데이터셋은 실제 이미지에 대한 지칭 표현을 포함하며, 까다로운 방해 요소와 부정(Negation)을 포함한 추론 양상으로 큐레이션되었습니다. 단어 순서 섭동(Word order perturbation) 및 기술어 삭제 충분성(Descriptor deletion sufficiency)에 대한 포괄적인 절제 연구(Ablation study)를 통해 Ref-Adv를 해결하려면 단순한 단서를 넘어선 추론이 필요함을 입증하고, 최신 MLLM 제품군을 평가합니다. RefCOCO 시리즈에서의 강력한 결과에도 불구하고, 모델들은 Ref-Adv에서 성능이 급격히 하락하여 지름길에 대한 의존성과 시각적 추론 및 그라운딩의 공백을 드러냈습니다. 본 연구는 심층적인 실패 분석을 제공하며, Ref-Adv가 향후 MLLM의 시각적 추론 및 그라운딩 연구의 가이드가 되기를 기대합니다.
핵심 기여
지름길 학습을 억제하는 고난도 REC 벤치마크 Ref-Adv 구축
기존 데이터셋의 지름길 학습 문제를 해결하기 위해 언어적 복잡성과 필수 정보만을 결합한 고난도 지칭 표현 이해(REC) 벤치마크를 구축함.
필수 정보와 복잡한 언어 구조를 결합한 데이터 큐레이션
까다로운 방해 요소와 부정 표현을 도입하여 모델이 단순한 키워드 매칭이 아닌 실제 시각적 추론을 수행하도록 설계함.
최신 MLLM의 시각적 추론 및 그라운딩 능력의 한계 규명
최신 모델들이 기존 벤치마크에서는 높은 성능을 보였으나 Ref-Adv에서는 성능이 크게 하락함을 확인하여 모델의 추론 결함을 명확히 분석함.
방법론
실제 이미지에서 대상을 고유하게 식별하는 데 필요한 최소한의 필수 정보와 복잡한 언어 구조를 결합하여 데이터셋을 구성함. 단어 순서 섭동 실험과 기술어 삭제 충분성 분석을 통해 모델이 표면적인 단서가 아닌 실제 논리적 추론을 수행하는지 검증함.
주요 결과
최신 MLLM들은 기존 RefCOCO 시리즈에서 우수한 성적을 거두었으나 Ref-Adv 벤치마크에서는 성능이 눈에 띄게 하락함. 특히 단어 순서 변화나 중복 정보 제거 시 모델의 취약성이 수치로 확인되어 지름길 해결책에 대한 의존성을 입증함.
시사점
모델의 실제 추론 논리를 검증하는 엄격한 평가 체계의 필요성을 강조함. 시각적 그라운딩 성능 향상을 위한 견고한 학습 데이터 설계 지침으로 활용 가능하며 향후 MLLM 연구의 새로운 기준점을 제시함.
키워드
섹션별 상세
지름길 학습을 억제하는 고난도 REC 벤치마크 Ref-Adv 구축
필수 정보와 복잡한 언어 구조를 결합한 데이터 큐레이션
최신 MLLM의 시각적 추론 및 그라운딩 능력의 한계 규명
AI 요약 · 북마크 · 개인 피드 설정 — 무료