왜 중요한가
긴 비디오를 이해하기 위해 모든 프레임을 분석하는 것은 연산 비용이 너무 높고 모델의 처리 한계를 벗어납니다. 이 논문은 비디오의 고유한 구조를 그래프로 모델링하여, 아주 적은 부분만 보고도 전체 맥락을 파악하고 정답에 필요한 핵심 장면을 정확히 찾아내는 효율적인 추론 방식을 제시합니다.
핵심 기여
시공간 어피니티 그래프 구축
비디오 세그먼트 간의 시각적 유사성과 시간적 근접성을 결합하여 비디오의 고유한 구조를 모델링하는 Spatio-Temporal Affinity Graph를 제안했다.
가설-검증-정제 반복 루프
쿼리 기반의 가설 설정, 멀티모달 증거 확인, 그래프 확산을 통한 전역 신뢰도 갱신을 반복하여 효율적으로 단서를 추적하는 메커니즘을 도입했다.
그래프 확산 기반의 전역 이해
관찰된 세그먼트의 관련성 점수를 그래프를 통해 미관찰 영역으로 전파함으로써, 전체 비디오를 다 보지 않고도 전역적인 관련성 분포를 추정할 수 있게 했다.
그래프 기반 비최대 억제(Graph-NMS)
관련성이 높으면서도 정보가 중복되지 않는 다양한 세그먼트를 선택하여 다운스트림 MLLM의 입력 효율성을 극대화했다.
핵심 아이디어 이해하기
Transformer 기반의 MLLM은 컨텍스트 윈도우의 제한으로 인해 수천 개의 프레임이 포함된 긴 비디오를 한꺼번에 처리하지 못한다. 기존 방식은 쿼리와 비슷한 장면만 단순 검색하여 인과 관계나 전체 흐름을 놓치는 경우가 많았다.
VideoDetective는 비디오를 단순한 프레임 나열이 아닌, 장면들이 서로 연결된 '지도(Graph)'로 해석한다. 시각적으로 비슷하거나 시간적으로 인접한 장면들은 그래프 상에서 강하게 연결된다. 이는 Embedding 공간에서의 거리와 시간적 연속성을 결합한 구조적 특징을 활용한 것이다.
핵심 아이디어는 '일부분을 통해 전체를 본다'는 것이다. 쿼리와 관련된 몇 개의 장면(Anchor)을 확인한 뒤, 그 장면의 중요도 점수를 그래프의 연결망을 따라 주변으로 퍼뜨린다(Diffusion). 마치 잉크가 종이에 번지듯, 한 장면이 정답과 관련이 있다면 그와 연결된 주변 장면들도 관련이 있을 확률이 높다는 원리를 이용해 비디오 전체의 중요도 지도를 완성한다.
방법론
비디오를 K개의 세그먼트로 나누고 SigLIP 인코더를 사용하여 각 세그먼트의 시각적 특징 를 추출한다. 시각적 유사도()와 시간적 근접성()을 가중 합산하여 인접 행렬 를 생성한다. [시각 특징 벡터와 시간 정보를 입력으로] → [코사인 유사도 및 지수 감쇠 연산을 수행해] → [연결 강도 수치를 얻고] → [장면 간의 연관성을 정의한다].
LLM을 사용하여 사용자 쿼리를 여러 개의 세부 속성(Facet)으로 분해한다. 각 단계에서 가장 유망한 노드를 앵커로 선택(Hypothesis)하고, VLM 캡션, OCR, ASR 등 멀티모달 증거를 추출하여 쿼리와의 실제 관련성 점수 를 측정(Verification)한다. [추출된 텍스트 증거와 쿼리 키워드를 입력으로] → [어휘적/의미적 유사도 계산을 수행해] → [0에서 1 사이의 점수를 얻고] → [해당 장면의 관련성을 확정한다].
측정된 점수를 그래프 확산(Graph Diffusion)을 통해 미관찰 노드로 전파한다. 비용 함수 를 최소화하는 방향으로 전역 신뢰도 분포 를 갱신한다. [관찰된 점수 벡터 와 정규화된 라벨라시안 행렬 을 입력으로] → [반복적인 행렬 곱 연산을 수행해] → [수렴된 벡터 를 얻고] → [비디오 전체 세그먼트의 최종 중요도를 파악한다].
마지막으로 Graph-NMS를 적용하여 중복을 피하면서도 모든 쿼리 속성을 포괄하는 최적의 세그먼트 세트를 선택한다. 이 압축된 증거 세트를 최종 MLLM에 입력하여 답변을 생성한다.
주요 결과
VideoMME-long 벤치마크에서 InternVL-2.5 (8B) 모델에 적용했을 때 정확도가 7.5% 향상되었으며, Oryx-1.5 (7B)에서도 7.0%의 성능 이득을 기록했다. 다양한 크기의 MLLM 백본에서 일관된 성능 향상을 입증했다.
SeedVL-1.5 (20B)와 결합한 경우 LongVideoBench에서 67.9%의 정확도를 달성했다. 이는 파라미터 수가 훨씬 많은 LLaVA-Video-72B(63.9%)는 물론, 상용 모델인 GPT-4o(66.7%)와 Gemini-1.5-Pro(64.0%)를 능가하는 수치이다.
토큰 효율성 분석 결과, GPT-4o가 비디오당 약 개의 토큰을 소비하는 반면, VideoDetective는 약 개의 토큰만으로도 대등하거나 더 높은 정확도를 보여주어 약 10배 이상의 비용 효율성을 증명했다.
실무 활용
긴 영상에서 특정 정보를 빠르게 찾아야 하는 실무 환경에 즉시 적용 가능한 추론 프레임워크이다. 별도의 추가 학습 없이 기존 MLLM에 플러그인 방식으로 결합하여 성능을 높일 수 있다.
- CCTV 보안 영상에서 특정 인물의 행동이나 사건 발생 지점을 효율적으로 검색
- 수시간 분량의 강의나 회의 영상에서 특정 주제가 다뤄진 구간을 찾아 요약 및 질의응답
- 방송 및 영화 아카이브에서 특정 소품이나 대사가 등장하는 장면을 정밀하게 추출
- 긴 유튜브 영상의 타임라인 자동 생성 및 사용자 질문에 기반한 하이라이트 탐색
기술 상세
VideoDetective는 비디오의 비선형적 구조를 캡처하기 위해 Spatio-Temporal Affinity Graph를 사용한다. 시각적 유사성은 장면의 의미적 연결을, 시간적 근접성은 인과적 연속성을 보장한다. 그래프의 희소성(Sparsity)을 유지하기 위해 각 행에서 상위 k개의 연결만 남겨 연산 효율을 높였다.
그래프 확산 과정은 Semi-supervised learning의 Manifold Regularization 이론에 기반한다. 이는 관찰된 데이터(Labeled)가 적을 때 데이터 간의 기하학적 유사성(Unlabeled)을 활용해 전체 분포를 추정하는 수학적 프레임워크를 제공한다. 반복적인 확산 연산은 식을 통해 수행되며, 이는 지수적으로 빠르게 수렴함이 증명되었다.
쿼리 분해(Query Decomposition) 단계에서는 LLM이 질문을 키워드(Entity)와 이벤트(Event) 설명으로 나누어, 단순한 단어 매칭을 넘어선 의미적 검색이 가능하도록 설계되었다. 검증 단계에서는 VLM 캡션, OCR, ASR 점수를 소스별 특성에 맞게 가중 결합(Source-aware Fusion)하여 신뢰도를 높였다.
최종 세그먼트 선택에 사용된 Graph-NMS는 유클리드 공간이 아닌 그래프 매니폴드 상에서 거리 기반 억제를 수행한다. 이를 통해 시각적으로는 다르지만 그래프 상에서 가깝게 연결된(즉, 정보가 중복될 가능성이 높은) 장면들을 효과적으로 걸러내어 MLLM에 입력되는 정보의 밀도를 극대화한다.
한계점
이 방법은 VLM이 '누락된 키워드'와 같은 피드백 신호를 정확하게 제공할 수 있는 자기 성찰(Self-reflection) 능력에 의존한다. 향후 연구에서는 더 정교한 관련성 평가 메커니즘을 통해 견고성을 높일 필요가 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.