핵심 요약
기존 비디오 AI는 긴 영상을 처리할 때 프레임을 듬성듬성 뽑거나 텍스트로 요약하며 중요한 시각 정보를 잃어버리는 문제가 있음. 이 논문은 비디오를 계층적인 그리드 구조로 만들어 필요한 부분만 정밀하게 확대 탐색함으로써 연산 효율과 정확도를 동시에 확보함.
왜 중요한가
기존 비디오 AI는 긴 영상을 처리할 때 프레임을 듬성듬성 뽑거나 텍스트로 요약하며 중요한 시각 정보를 잃어버리는 문제가 있음. 이 논문은 비디오를 계층적인 그리드 구조로 만들어 필요한 부분만 정밀하게 확대 탐색함으로써 연산 효율과 정확도를 동시에 확보함.
핵심 기여
VideoAtlas 환경 구축
비디오를 손실 없는 계층적 그리드로 표현하여 탐색 깊이가 비디오 길이에 따라 로그 단위로만 증가하는 환경을 설계함.
Video-RLM 아키텍처
마스터-워커 구조를 도입하여 마스터가 전체 탐색을 조율하고 워커가 병렬로 특정 지역을 정밀 조사하여 시각적 증거를 수집함.
로그 단위 연산 스케일링 달성
비디오 길이가 1분에서 10시간으로 600배 늘어나도 연산 비용은 선형이 아닌 로그 함수 형태로 증가하여 확장성을 증명함.
환경 기반 예산 관리 시스템
탐색 깊이를 제한하여 정확도와 연산량 사이의 균형을 조절할 수 있는 원칙적인 하이퍼파라미터를 제공함.
핵심 아이디어 이해하기
Transformer 기반 모델의 Self-Attention은 입력 길이가 길어질수록 연산량이 제곱으로 늘어나는 한계가 있음. 비디오의 경우 수만 개의 프레임을 한꺼번에 처리하는 것이 물리적으로 불가능하여 기존에는 프레임을 건너뛰며 샘플링하는 방식을 사용했으나, 이는 짧고 중요한 이벤트를 놓치는 원인이 됨.
VideoAtlas는 비디오를 그리드(기본 8x8)의 계층 구조로 정의하여 이 문제를 해결함. 마치 지도 앱에서 전 세계를 보다가 특정 도시를 줌인하듯, 에이전트는 전체 비디오의 개요를 보고 유망한 시간 구간을 선택해 'EXPAND' 액션을 취함. 이 액션은 해당 구간을 다시 64개의 세부 구간으로 나누어 보여주며, 이를 반복하여 초 단위 미만의 정밀도까지 도달함.
이 과정은 의 복잡도를 가짐. 비디오 길이가 10배 길어져도 탐색 깊이만 한 단계 더 깊어질 뿐 전체를 다시 읽을 필요가 없음. 결과적으로 10시간 분량의 영상에서도 필요한 부분만 고해상도로 확인하며 정확한 답변을 도출할 수 있게 됨.
방법론
VideoAtlas를 마르코프 결정 과정(MDP)으로 공식화함. 상태(State)는 계층적 그리드 스택으로 정의되며, 각 그리드 레벨 에서의 시간 해상도 를 계산함. [비디오 전체 길이 T와 그리드 분할 수 K, 현재 깊이 d를 입력으로] -> [K의 제곱을 깊이에 비례하여 거듭제곱한 값으로 T를 나누는 연산을 수행해] -> [해당 계층에서의 시간 간격 를 얻고] -> [이 숫자가 작아질수록 더 정밀한 시간 단위의 탐색이 가능함을 의미함].
에이전트 아키텍처인 Video-RLM은 Master-Worker 구조를 채택함. Master 에이전트는 전체 그리드를 검토하고 불확실성 분석을 통해 유망한 셀을 선정하여 Worker들에게 할당함. Worker 에이전트들은 할당된 구역에서 EXPAND(확대), ZOOM(고해상도 확인), INVESTIGATE(주변 탐색) 등의 액션을 병렬로 수행하며 시각적 증거를 수집함.
수집된 증거는 Visual Scratchpad라는 손실 없는 메모리에 저장됨. 이는 텍스트 요약이 아닌 원본 이미지 패치, 타임스탬프, 자막 정보를 포함하는 튜플 형태임. 탐색이 종료되면 Master는 이 Scratchpad에 모인 모든 시각적 증거를 종합하여 최종 답변을 생성함.
주요 결과
10시간 분량의 비디오 벤치마크 실험에서 기존 선형 방식 대비 최대 9.7배 적은 토큰을 사용하면서도 더 높은 정확도를 기록함. 특히 1시간에서 10시간으로 영상이 길어질 때 기존 모델들은 정확도가 급격히 하락했으나, Video-RLM은 성능 저하를 최소화하며 견고함을 유지함.
Qwen3.5-35B 모델을 백본으로 사용했을 때 LongVideoBench에서 제로샷 성능이 28B 파라미터의 InternVL3.5와 대등한 수준임을 확인했으며, 더 강력한 백본인 Gemini-3-Flash를 사용할 경우 성능이 더욱 향상됨을 입증함.
효율성 측면에서 vLLM의 멀티모달 프리픽스 캐싱을 활용하여 30-60%의 캐시 히트율을 달성함. 이는 에이전트가 동일한 그리드 뷰를 반복해서 참조할 때 발생하는 중복 연산을 효과적으로 제거하여 실제 GPU 연산 부하를 크게 줄인 결과임.
실무 활용
수 시간 이상의 장편 영상에서 특정 사건을 정밀하게 찾아내야 하는 실무 환경에 최적화되어 있음. 텍스트 변환 없이 시각 데이터를 직접 다루므로 보안 및 정밀 분석이 필요한 분야에 유용함.
- CCTV 영상 내 특정 사고 발생 시점 및 원인 정밀 추적
- 스포츠 경기 중계 영상에서 특정 선수의 반칙이나 득점 장면 자동 검출 및 분석
- 장편 영화나 다큐멘터리 아카이브에서 특정 소품이나 인물이 등장하는 구간 검색
기술 상세
VideoAtlas는 비디오를 의 계층적 그리드 스택으로 표현하며 각 그리드는 개의 셀을 가짐. 탐색 깊이 는 로 결정되어 비디오 길이에 대해 로그 단위로 스케일링됨. 이는 컨텍스트 윈도우가 제한된 VLM이 이론적으로 무한한 길이의 비디오를 처리할 수 있게 함.
액션 공간은 Navigation(EXPAND, BACKTRACK), Perception(ZOOM, INVESTIGATE), Commit(ADDTOSCRATCHPAD)의 세 카테고리로 나뉨. 특히 Negative Memory 기법을 도입하여 이미 탐색했지만 관련 정보가 없는 구역을 'Dead Zone'으로 마스킹함으로써 에이전트의 중복 탐색과 환각(Hallucination) 현상을 방지함.
실험 결과에 따르면 성능 병목은 환경 구조보다는 백본 VLM의 지각 능력에 기인함. 더 강력한 모델로 교체할 때 별도의 아키텍처 수정 없이도 성능이 선형적으로 향상되는 VLM-agnostic 특성을 보임.
한계점
백본 VLM의 지각 능력 한계로 인해 텍스트 오버레이를 잘못 읽거나 시각적으로 유사한 장면을 혼동하는 경우가 발생함. 또한 초기 그리드에서 시각적 단서가 명확하지 않을 경우 관련 구역을 찾는 데 추가적인 탐색 라운드가 필요하여 오버헤드가 발생할 수 있음.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료