핵심 요약
본 논문은 낮은 계산 비용으로 긴 비디오를 이해해야 하는 중요하면서도 충분히 연구되지 않은 과제를 다룹니다. 저자들은 소모적인 전수 조사(exhaustive search)의 중복성을 피하고 효율적인 비디오 문맥 내비게이션(video context navigation)을 위해 설계된 능동적이고 추론 능력을 갖춘 멀티모달 대형 언어 모델(MLLM) 에이전트인 LongVideo-R1을 제안합니다. LongVideo-R1의 핵심은 고수준의 시각적 단서(visual cues)를 활용하여 후속 처리에 가장 유익한 비디오 클립을 추론하는 추론 모듈(reasoning module)에 있습니다. 추론 과정에서 에이전트는 최상위 수준의 시각적 요약(visual summaries)에서 탐색을 시작하여 점진적으로 초점을 좁혀 나가며, 질문에 답하기에 충분한 지식을 얻는 즉시 탐색 과정을 중단합니다. 학습을 지원하기 위해, 저자들은 먼저 접지 주석(grounding annotations)이 포함된 비디오 코퍼스인 CGBench에서 계층적 비디오 캡션(hierarchical video captions)을 추출하고, GPT-5를 가이드로 삼아 33,000개의 고품질 도구 활용 사고 사슬(chain-of-thought-with-tool) 궤적을 생성했습니다. LongVideo-R1 에이전트는 Qwen-3-8B 모델을 기반으로 지도 학습 기반 미세 조정(SFT)과 강화학습(RL)의 두 단계 패러다임을 통해 미세 조정되었습니다. 여기서 강화학습은 선택적이고 효율적인 클립 내비게이션을 극대화하기 위해 특별히 설계된 보상 함수(reward function)를 사용합니다. 여러 긴 비디오 벤치마크에 대한 실험을 통해 질의응답(QA) 정확도와 효율성 사이의 우수한 균형을 입증했습니다.
핵심 기여
능동적 추론 기반 비디오 내비게이션 에이전트 개발
긴 비디오 전체를 처리하는 대신, 고수준 요약에서 시작해 필요한 클립을 스스로 찾아가는 추론 기반 에이전트 구조를 제안하여 계산 효율성을 극대화했습니다.
계층적 비디오 캡션 및 33K 사고 사슬 데이터셋 구축
CGBench를 활용해 비디오의 계층적 구조를 반영한 캡션을 추출하고, GPT-5를 통해 에이전트의 탐색 과정을 모사한 33,000개의 고품질 학습 데이터를 생성했습니다.
효율적 탐색을 위한 강화학습(RL) 프레임워크 도입
정확도뿐만 아니라 탐색의 효율성을 동시에 고려한 보상 함수를 설계하여, 최소한의 클립 확인으로 정답을 도출하도록 모델을 최적화했습니다.
방법론
LongVideo-R1은 Qwen-3-8B를 백본으로 하며, 최상위 요약본부터 시작해 하위 클립으로 파고드는 계층적 탐색 방식을 채택합니다. GPT-5로 생성한 도구 활용 사고 사슬(CoT) 데이터를 통한 지도 학습(SFT) 후, 탐색 효율성을 보상하는 강화학습(RL)을 통해 최적의 경로를 찾도록 훈련됩니다.
주요 결과
다양한 긴 비디오 벤치마크 실험 결과, LongVideo-R1은 기존의 전수 조사 방식 대비 훨씬 적은 계산 자원을 사용하면서도 질의응답 정확도 측면에서 경쟁력 있는 성능을 보여주며 효율성과 정확도의 우수한 균형을 달성했습니다.
시사점
긴 비디오 처리에 있어 모든 프레임을 분석하는 기존 방식의 한계를 극복하고, 에이전트가 무엇을 더 봐야 할지 스스로 판단하게 함으로써 실제 서비스 적용 시 인프라 비용을 획기적으로 줄일 수 있는 방향을 제시합니다.
키워드
섹션별 상세
능동적 추론 기반 비디오 내비게이션 에이전트 개발
계층적 비디오 캡션 및 33K 사고 사슬 데이터셋 구축
효율적 탐색을 위한 강화학습(RL) 프레임워크 도입
AI 요약 · 북마크 · 개인 피드 설정 — 무료