See What I Mean: 비디오의 미세 객체 이해를 위한 Vision-Language 표현 정렬

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

MLLM은 텍스트로 언급된 객체를 특정 시각 영역에 정렬하는 능력이 불완전하다. 기존 방법은 시각 프롬프트(마스크/포인트 등)가 필요해 인터랙션과 계산 복잡성을 증가시키며, 객체 명사가 높은 수준의 의미 표현으로 인해 공간적 정합이 약해진다. SWIM은 학습 단계에서 object noun과 시각 영역 간의 정합을 명시적으로 강화해 인퍼런스 시 추가 프롬프트 없이도 미세 객체 grounding을 달성한다. NL-Refer 데이터셋의 도입으로 텍스트-시각 매핑의 가치를 높이고, 벤치마크에서 시각 프롬프트 기반 방법을 능가한다.

왜 중요한가

MLLM은 텍스트로 언급된 객체를 특정 시각 영역에 정렬하는 능력이 불완전하다. 기존 방법은 시각 프롬프트(마스크/포인트 등)가 필요해 인터랙션과 계산 복잡성을 증가시키며, 객체 명사가 높은 수준의 의미 표현으로 인해 공간적 정합이 약해진다. SWIM은 학습 단계에서 object noun과 시각 영역 간의 정합을 명시적으로 강화해 인퍼런스 시 추가 프롬프트 없이도 미세 객체 grounding을 달성한다. NL-Refer 데이터셋의 도입으로 텍스트-시각 매핑의 가치를 높이고, 벤치마크에서 시각 프롬프트 기반 방법을 능가한다.

핵심 기여

NL-Refer 데이터셋 구성

VideoRefer에서 각 객체를 자연어 참조 ri로 명시하고, Mi 마스크와의 결정적 연계를 위해 ri에 포함된 핵심 명사를 <ins> 태그로 표시하는 정제 과정을 도입한다. 이로써 object noun에 대한 텍스트-시각 매핑의 학습 기반이 확립된다.

SWIM의 학습 전략

다중 중간 레이어에서의 cross-attention 맵을 object noun에 대해 추출하고 ground-truth 마스크 Mi와 공간적 일치를 강제하는 어텐션 Regularization을 도입한다. 학습 시에만 시각 프롬프트를 필요로 하지 않도록 한다.

다층 어텐션 정렬 및 BCE 손실

선정된 여러 레이어의 attention 맵을 평균화한 A¯i를 Mi와 비교해 이진 교차 엔트로피(BCE) 손실로 학습한다. 이를 통해 object noun이 목표 영역에 집중되도록 학습 신호를 제공한다.

추론 시 시각 프롬프트 불필요

SWIM은 학습 중에만 시각 프롬프트를 사용하고, inference 시 추가 시각 입력 없이도 텍스트 promt만으로 미세 객체를 지시할 수 있다. 기존 아키텍처 수정 없이도 동작한다.

벤치마크에서의 성능 향상 및 확장성

VideoRefer-D/Q 벤치마크에서 기존 강력 Baseline 및 전문 모델을 상회하며, VideoRefer-Q에서 Basic/Sequential 태스크에서 큰 개선을 보인다. 125K 규모의 NL-Refer 데이터로 확장 시 성능이 지속적으로 향상된다.

어텐션 Layer Ablation 및 실험

레이어 수, 레이어 간 융합 방식, 손실 함수의 영향 등을 분석하여, 6개의 레이어를 균등 분포로 supervising하는 구성에서 가장 높은 성능을 달성한다(Mean 융합이 가장 안정적). BCE 손실이 가장 효과적이다.

핵심 아이디어 이해하기

기존 MLLM에서 object nouns는 고수준의 의미 표현으로 인해 시각 영역과의 공간적 결합이 약하고 분포가 분산된다. 이는 attribute words가 낮은 차원의 텍스처 정보에 대해 명확한 주의 패턴을 보이는 것과 대조적이다. 연구진은 NL-Refer를 통해 각 객체의 핵심 명사를 텍스트 구성에 명시적으로 포함시키고, cross-attention에서 해당 토큰이 특정 시각 영역에 집중되도록 학습 신호를 제공한다. 이렇게 학습되면 inference 시 텍스트 프롬프트만으로도 대상 객체에 대한 정확한 시각 grounding이 가능해진다. 실험적으로 SWIM은 다층 cross-attention의 맵을 평균화한 A¯i를 Mi와 BCE로 정합시키고, 6개 레이어의 균등 분포 supervise에서 최적 성능을 얻는다. 또한 attention 정렬의 품질은 GamePoint@P, AP/AUC/NSS 등의 지표에서 향상된다.

방법론

전체 파이프라인은 아래와 같다. (1) NL-Refer 데이터셋 구성: VideoRefer에서 Hi의 을 GPT-4o가 ri로 대체하고, Mi와의 연결 고리를 위해 wi를 로 강조한다. Hhat_i = Mark(Replace(Hi, , ri), wi)로 표현한다. (2) Cross-attention 감독: 텍스트를 Lt 토큰 시퀀스로 분해하고, ji는 태깅된 명사 토큰의 인덱스이다. cross-attention에서 Ql[ji]와 Kv_l를 이용해 Al,i를 계산하고, 이를 Mi와 맞추기 위해(H, W) 해상도로 매핑한 후 Averaging S로 A¯i를 얻는다. (3) 손실: L_BCE = -1/HW Σu Σv [Mi(u,v) log A¯i(u,v) + (1-Mi(u,v)) log(1-A¯i(u,v))]를 사용한다. 이를 통해 object noun의 cross-modal grounding을 강화한다. (4) 데이터 및 학습: Qwen2.5VL-7B 기반으로 NL-Refer(125K 샘플) + LLaVA-Video 기반 QA 데이터(235K 샘플)로 총 235K 예제로 학습. 하드웨어는 8× NVIDIA A100 사용. (5) 추론: 학습 시에만 Mi가 필요하며, 추론 시에는 시각 프롬프트가 필요 없다.

주요 결과

주요 벤치마크에서의 성능은 다음과 같다. VideoRefer-Q에서 SWIM은 Basic에서 +5.8% 포인트, Sequential에서 +5.3% 포인트의 향상을 보였고, 평균 78.3%를 달성하며 VideoRefer-7B를 6.4% 포인트 상회한다(또한 Qwen2.5-VL-7B는 71.8, GPT-4o는 71.3). VideoRefer-D에서는 SC/AD/TD/HD의 평균 3.78로 DAM-8B의 3.68, GPT-4o의 3.25를 상회한다. 일반 벤치마크에서도 SWIM은 MVBench 62.1, VideoMME 55.9, ActivityNet-QA 55.6 등에서 경쟁력 있는 성능을 보인다. GamePoint@P 지표에서도 Top-1에서 Qwen2.5-VL 대비 +6.3%의 차이를 보이며, Top-5에서도 +5.5%의 이점을 얻는다. 스케일링 실험에서 30K→125K 데이터에서 정렬 점수는 지속적으로 증가하며, 125K에서 SWIM의 성능은 3.78로 최고치를 기록한다. Ablation 결과로는 레이어 수가 6개일 때 평균 성능이 가장 높고, 평균 융합(mean)이 다른 방법보다 우수하며, BCE 손실이 가장 안정적으로 우수한 성능을 보인다.

기술 상세

아키텍처: Qwen2.5VL-7B 기반의 비전 인코더와 LLM으로 구성된 멀티모달 프레임워크에 SWIM의 학습 신호를 추가한다. NL-Refer 데이터셋은 Hi의 placeholder를 ri로 대체하고 wi를 로 마킹하는 과정을 포함한다. 학습에서 cross-attention은 l번째 레이어의 쿼리 벡터 Qt_l[ji]와 시각 토큰 Kv_l를 이용해 Al,i를 계산하고, bilinear interpolation으로 (H, W) 해상도에 매핑한다. S에 속한 레이어들의 Al,i를 평균하여 A¯i를 얻고, Mi와 BCE 손실로 지도한다. 데이터 포맷은 Vi, Hi, Gi, Mi의 VideoRefer 구조를 확장한 DNL-Refer를 사용한다. 데이터 규모는 NL-Refer 125K + QA 데이터로 구성되며, 학습은 8× NVIDIA A100에서 수행된다. 기존 방법 대비 핵심 차별점은 inference 시 visual prompt 없이도 텍스트-시각 정합을 달성한다는 점이다. 실험은 VideoRefer 벤치마크를 중심으로 수행되었으며, 다른 일반 비디오 벤치마크에서도 경쟁력을 보인다.

실무 활용

SWIM은 training-time에만 object noun과 시각 영역 간의 정합 정보를 주입하고 inference 시 추가 시각 입력 없이도 텍스트 지시로 미세 객체를 정확하게 지시할 수 있다. 별도의 시각 프롬프트나 아키텍처 변경 없이도 미세 객체 grounding 성능이 향상된다.

비디오 QA에서 특정 객체를 지칭하는 질의에 대해 객체 위치를 정확하게 파악한 뒤 응답 생성
픽션/실시간 영상 캡셔닝에서 referential grounding을 활용한 자세한 설명 생성
비디오 편집 및 태깅에서 텍스트 프롬프트로 특정 객체를 지목하여 편집/주석 자동화
감시/보안 영상 분석에서 사용자 지정 대상의 위치 추적 및 행동 분석

코드 공개 여부: 공개

코드 저장소 보기

키워드

vision-language representationscross-modal attentionmultimodal large language modelsnatural language referring expressionsspatial consistencymulti-layer cross-attention maps