핵심 요약
기존의 장편 비디오 분석은 모든 구간을 일일이 처리해야 해서 비용과 시간이 막대하게 소요됐다. 이 논문은 사람이 비디오를 훑어보듯 필요한 부분만 골라 보는 능동적 내비게이션 방식을 도입해 정확도는 유지하면서 연산 비용을 획기적으로 낮췄다.
왜 중요한가
기존의 장편 비디오 분석은 모든 구간을 일일이 처리해야 해서 비용과 시간이 막대하게 소요됐다. 이 논문은 사람이 비디오를 훑어보듯 필요한 부분만 골라 보는 능동적 내비게이션 방식을 도입해 정확도는 유지하면서 연산 비용을 획기적으로 낮췄다.
핵심 기여
LongVideo-R1 프레임워크
비디오를 계층적 트리 구조로 조직화하고, 필요한 정보가 있는 구간으로 능동적으로 이동하며 추론하는 MLLM 에이전트 구조를 확립함.
CoTwT 데이터셋 구축
GPT-5를 활용하여 33,000개의 고품질 Chain-of-Thought-with-Tool 추론 경로 데이터를 생성하고 이를 학습에 활용함.
GRPO 기반 강화학습 적용
정확도, 탐색 효율성, 반복 방지를 동시에 최적화하는 복합 보상 함수를 설계하여 에이전트의 의사결정 능력을 극대화함.
우수한 효율성-정확도 트레이드오프
LVBench 등 주요 벤치마크에서 기존 에이전트 방식 대비 훨씬 적은 연산량으로 경쟁력 있는 성능을 달성하며 Pareto-optimal 솔루션을 제시함.
핵심 아이디어 이해하기
Transformer의 Attention 메커니즘은 입력 시퀀스 길이에 따라 연산량이 제곱으로 증가한다. 수 시간 분량의 비디오는 수백만 개의 토큰으로 변환되므로, 기존 MLLM의 제한된 컨텍스트 윈도우로는 전체 영상을 한 번에 처리하는 것이 물리적으로 불가능하다. 기존 방식은 비디오를 잘게 쪼개 모든 조각을 분석한 뒤 통합하는데, 이는 비디오 길이에 비례해 비용이 선형적으로 늘어나는 한계가 있다.
LongVideo-R1은 비디오를 트리 구조로 조직화하여 이 문제를 해결한다. 최상단은 전체 요약, 하단으로 갈수록 세부적인 클립으로 구성된 계층 구조에서 에이전트는 현재 정보가 충분한지 판단하고, 부족하다면 특정 시간대로 확대(Zoom-in)할지 결정한다. 이는 마치 사람이 유튜브 영상에서 타임라인을 클릭하며 필요한 장면을 찾는 것과 유사한 원리다.
결과적으로 불필요한 구간은 건너뛰고 핵심 장면만 정밀 분석함으로써, 전체 비디오를 다 읽지 않고도 정답에 도달한다. 이러한 능동적 탐색은 연산 비용을 획기적으로 줄이면서도 장편 영상의 맥락을 놓치지 않게 해준다.
방법론
비디오를 3단계 계층(High/Medium/Low-level)의 트리 구조로 변환한다. 각 노드는 이전 단계의 클립을 K개의 하위 클립으로 균등 분할하며, 최하단 리프 노드는 약 16초 분량으로 고정된다. 이러한 구조는 에이전트가 광범위한 요약에서 세부 정보로 단계적으로 접근할 수 있는 환경을 제공한다.
CoTwT(Chain-of-Thought-with-Tool) 절차를 통해 추론을 수행한다. 에이전트는 video_cap() 도구로 현재 클립의 텍스트 설명을 얻고, video_qa() 도구로 최종 답변을 생성한다. 추론 과정은 , , 토큰으로 구조화되어 투명한 의사결정 과정을 거치며, 각 단계에서 다음 탐색 위치를 스스로 결정한다.
학습은 2단계 파이프라인으로 진행된다. 먼저 GPT-5를 교사 모델로 삼아 33K개의 추론 경로를 학습하는 SFT를 수행하여 기초적인 탐색 능력을 배양한다. 이후 GRPO 알고리즘을 사용해 강화학습을 진행하며, 정책 모델이 생성한 여러 롤아웃의 상대적 우위를 비교하여 가중치를 갱신한다.
보상 함수는 구조를 가진다. [정답 여부, 탐색 효율성, 반복 횟수를 입력으로] → [가중치 합산 연산을 수행해] → [하나의 스칼라 보상 값을 얻고] → [이 값이 높을수록 에이전트가 정확하면서도 최소한의 탐색으로 정답을 찾았음을 의미함]. 특히 위치 보상()은 정답 구간과의 겹침 정도를 측정하여 효율적인 내비게이션을 유도한다.
주요 결과
LVBench 벤치마크에서 50.0%의 정확도를 기록하며 기존 에이전트 기반 시스템인 VideoAgent(29.3%)와 VideoTree(28.8%)를 압도했다. 특히 시간적 접지(Temporal Grounding) 작업에서는 56.4%를 달성하여 다른 모델들보다 10.9%p 높은 성능을 보이며 정밀한 장면 탐색 능력을 입증했다.
효율성 측면에서 질문당 평균 10.5회의 추론 라운드만으로 정답을 도출했다. 이는 비디오 전체를 전수 조사하는 선형 스캔 방식보다 연산 비용이 현저히 낮으며, 10시간 이상의 초장편 드라마에서도 정확한 장면 탐색이 가능함을 확인했다.
Ablation study 결과, 위치 보상()을 추가했을 때 전체 성능과 키 정보 검색(KIR) 능력이 유의미하게 향상되었다. 또한 SFT 데이터의 양이 10K에서 33K로 증가함에 따라 정확도가 지속적으로 상승하여 고품질 추론 경로 데이터의 중요성이 나타났다.
기술 상세
Qwen-3-8B를 백본 추론 모델로 사용하고, 외부 도구로 Qwen2.5-VL-72B(캡셔닝)와 Qwen2.5-VL-32B(QA)를 연동한 에이전트 아키텍처다. 계층적 트리 구조는 비디오 길이에 따라 가변적인 너비(W)를 가지도록 설계되어 다양한 길이의 영상에 유연하게 대응한다.
강화학습 단계에서 GRPO 알고리즘을 채택하여 별도의 Critic 모델 없이도 효율적인 정책 최적화가 가능하다. 이는 메모리 사용량을 줄이면서도 동일한 질문에 대해 여러 개의 탐색 경로를 동시에 평가하여 모델의 변별력을 높이는 데 기여한다.
데이터 큐레이션 시 'Clue-grounded hints' 전략을 도입했다. GPT-5가 탐색에 실패할 경우 정답 구간에 대한 힌트를 단계적으로 제공하여, 모델이 단순히 정답을 암기하는 것이 아니라 논리적인 탐색 로직을 일반화하여 학습하도록 유도했다.
추론 시에는 각 단계마다 텍스트 기반의 추론(Thinking) 과정을 거치며, 이는 모델의 판단 근거를 사람이 읽을 수 있는 형태로 제공하여 시스템의 투명성과 디버깅 용이성을 확보했다.
한계점
시각적으로 매우 유사하지만 질문과는 무관한 장면이 반복될 경우, 모델이 잘못된 트리 가지(branch)에 고착되어 정답 구간으로 돌아오지 못하는 탐색 오류가 발생할 수 있다.
실무 활용
장시간의 보안 영상 분석, 영화/드라마 아카이브 검색, 긴 회의 녹화본 요약 등 비용과 시간이 중요한 실무 환경에 최적화된 솔루션이다.
- CCTV 영상에서 특정 사건이 발생한 시점을 수 분 내에 자동 탐색
- 수 시간 분량의 스포츠 경기 풀영상에서 특정 선수의 득점 장면만 추출
- 대규모 영상 데이터베이스에서 특정 대사나 오브젝트가 등장하는 구간 자동 분류
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.