지칭 표현 이해
자연어 설명을 입력받아 이미지 내에서 해당 설명이 가리키는 특정 객체나 영역을 정확히 찾아내는 컴퓨터 비전 및 자연어 처리 결합 태스크이다.
기존 벤치마크의 허점 노출, MLLM의 시각적 추론 한계를 밝히는 Ref-Adv