핵심 요약
기존 시각 지시문 이해(REC) 벤치마크는 문장이 너무 짧거나 방해 요소가 적어 모델이 실제 추론 없이도 정답을 맞히는 '지름길' 문제가 존재했다. 이 논문은 언어적 복잡성과 유사한 방해 요소를 극대화한 Ref-Adv를 통해 최신 멀티모달 모델들의 실제 시각적 추론 능력을 엄격하게 검증하고 한계를 드러낸다.
왜 중요한가
기존 시각 지시문 이해(REC) 벤치마크는 문장이 너무 짧거나 방해 요소가 적어 모델이 실제 추론 없이도 정답을 맞히는 '지름길' 문제가 존재했다. 이 논문은 언어적 복잡성과 유사한 방해 요소를 극대화한 Ref-Adv를 통해 최신 멀티모달 모델들의 실제 시각적 추론 능력을 엄격하게 검증하고 한계를 드러낸다.
핵심 기여
Ref-Adv 고난도 벤치마크 구축
지름길 해결을 방지하기 위해 언어적으로 복잡하고 방해 요소가 많은 실제 이미지 기반의 REC 데이터셋을 제안함. 부정문과 상대적 관계를 포함한 5,000개의 인스턴스를 포함함.
2단계 LLM 기반 데이터 생성 파이프라인
유사한 객체 간의 차이점을 먼저 추출하고 이를 바탕으로 최소한의 충분한 지시문을 생성하는 2단계 기법을 도입하여 데이터의 품질과 난이도를 확보함.
최신 MLLM의 시각적 추론 결함 입증
GPT-4o, Qwen2.5-VL 등 최신 모델들이 기존 벤치마크에서는 90% 이상의 성능을 보이나 Ref-Adv에서는 성능이 최대 30% 이상 급락함을 확인하여 모델의 추론 공백을 증명함.
핵심 아이디어 이해하기
REC는 텍스트 설명을 이미지 내 특정 영역과 연결하는 작업이다. 기존에는 '피자'처럼 짧은 단어나 주변에 비슷한 물체가 없는 환경에서 평가되어, 모델이 문장 전체를 이해하기보다 특정 키워드(Embedding)만 보고 영역을 찾는 경향이 있었다. 이는 모델이 실제 시각적 논리를 갖추지 않아도 높은 점수를 얻게 하는 한계로 작용했다.
Ref-Adv는 이를 해결하기 위해 'Hard Distractor' 개념을 도입한다. 타겟과 매우 유사하지만 미세하게 다른 객체들을 배치하고, '안경을 쓰지 않은 사람'과 같은 부정(Negation)이나 상대적 위치 관계를 포함한 복잡한 문장을 생성한다. 이 과정에서 모델은 단순히 객체를 탐지하는 수준을 넘어, 문장의 논리 구조를 파악하고 이미지 내 여러 후보군을 비교하는 다단계 추론을 수행해야만 한다.
결과적으로 이 접근법은 모델이 텍스트의 모든 세부 사항을 시각적 정보와 대조하도록 강제한다. 이는 단순히 성능 수치를 높이는 것이 아니라, 모델이 인간처럼 복잡한 지시를 이해하고 시각적 맥락에서 올바른 대상을 식별하는 능력을 갖추었는지 엄격하게 판별하는 기준이 된다.
방법론
데이터 수집 가이드라인을 통해 이미지 내 동일 카테고리 객체가 최소 3개 이상인 경우만 필터링하여 '방해 요소 압박'을 가한다. 이는 모델이 단순히 객체 종류만 맞히는 쉬운 경로를 차단하기 위함이다.
2단계 LLM 생성 파이프라인을 사용한다. 1단계(Similarity Judgement)에서 GPT-4o가 타겟과 가장 유사한 객체 쌍을 찾아 그룹 간 차별점과 그룹 내 개별 객체 간 차별점을 추출한다. 2단계(Expression Generation)에서 이 속성들을 조합해 타겟을 유일하게 식별할 수 있는 최소한의 복잡한 문장을 생성한다.
인간 검증 프로토콜을 통해 데이터의 신뢰성을 확보한다. 생성된 문장이 모호하지 않은지, 실제로 이미지 내에 하드 디스트랙터가 존재하는지 3인의 작업자가 독립적으로 검증한다. 초기 생성된 문장 중 약 18.7%만이 이 엄격한 검증을 통과하여 최종 데이터셋에 포함된다.
주요 결과
Qwen2.5-VL-72B와 같은 최신 모델들이 RefCOCO에서는 92.7%의 정확도를 보였으나, Ref-Adv에서는 58.3%로 급격히 하락했다. 이는 기존 모델들이 시각적 추론보다 데이터셋의 통계적 특성에 의존했음을 시사한다.
이미지 내 방해 요소가 7개 이상으로 늘어날 경우 모델의 성능 하락폭이 더욱 커졌다. Qwen2.5-VL-72B+CoT 모델의 경우 방해 요소가 적을 때보다 정확도가 2.7% 추가 하락했으며, 이는 다수의 유사 객체 사이에서 정밀한 식별이 여전히 어려운 과제임을 보여준다.
Chain-of-Thought(CoT)를 사용할 경우 전반적인 성능 향상이 관찰되었다. 특히 추론 요구도가 높은 Ref-Adv 환경에서 CoT는 모델이 지시문의 논리 구조를 단계적으로 처리하도록 도와 성능 하락을 일부 방어하는 효과를 냈다.
기술 상세
Ref-Adv는 COCO 및 OpenImages v7 데이터를 기반으로 구축되었으며, 총 1,142개의 정제된 케이스(Ref-Adv-s)를 포함한다. 기존 데이터셋 대비 평균 문장 길이가 약 3배 이상 길고 부정문 비율이 21.25%로 매우 높다.
'Grounding Shortcut'을 차단하기 위해 Descriptor Deletion Sufficiency 테스트를 수행했다. 특정 설명 문구를 삭제했을 때 모델 성능이 변하지 않는다면 해당 설명이 불필요한 지름길임을 의미하며, Ref-Adv는 이러한 불필요한 설명을 최소화하여 문장 전체를 읽어야만 풀 수 있도록 설계했다.
Set-of-Marks(SoM) 기법을 평가에 활용했다. 이미지 내 객체들에 번호 태그를 붙여 모델이 이를 참조하게 함으로써, 좌표 출력의 어려움보다는 순수한 시각적 추론 능력 측정에 집중할 수 있는 환경을 조성했다.
한계점
모델이 하드 디스트랙터를 정답으로 선택하는 경우가 빈번하며, 이는 현재 MLLM이 복잡한 지시문과 시각적 세부 사항을 깊이 있게 연결하는 데 여전히 한계가 있음을 보여준다.
실무 활용
멀티모달 모델의 시각적 이해도와 추론 능력을 정밀하게 측정하려는 연구자 및 개발자에게 필수적인 벤치마크이다. 실제 복잡한 환경에서의 모델 성능을 예측하는 데 유용하다.
- MLLM의 시각적 추론 및 지시문 이해 능력 정밀 벤치마킹
- 복잡한 환경에서의 객체 위치 추정(Grounding) 알고리즘 개선 및 평가
- 부정문이나 상대적 관계가 포함된 고난도 시각-언어 데이터셋 구축 시 참조
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.