핵심 요약
긴 비디오를 처리할 때 발생하는 컨텍스트 윈도우의 한계와 정보 희석 문제를 해결하기 위해 소형 모델을 '스마트 압축기'로 활용하는 새로운 패러다임을 제시합니다. 질문에 따라 중요한 장면은 상세하게, 불필요한 배경은 최소한으로 압축하여 연산 효율성과 이해 정확도를 동시에 잡았습니다.
왜 중요한가
긴 비디오를 처리할 때 발생하는 컨텍스트 윈도우의 한계와 정보 희석 문제를 해결하기 위해 소형 모델을 '스마트 압축기'로 활용하는 새로운 패러다임을 제시합니다. 질문에 따라 중요한 장면은 상세하게, 불필요한 배경은 최소한으로 압축하여 연산 효율성과 이해 정확도를 동시에 잡았습니다.
관련 Figure

Sparse Sampling이나 Uniform Pooling은 중요한 순간을 놓치거나 세부 정보를 흐리게 하지만, Tempo는 질문에 맞춰 중요한 구간에 토큰을 집중 할당합니다. 결과적으로 LVBench에서 훨씬 적은 토큰으로도 상용 모델들을 압도하는 효율성을 보여줍니다.
기존의 쿼리 무관 방식과 Tempo의 쿼리 인지형 압축 방식 비교 및 성능 그래프.
핵심 기여
Tempo 프레임워크
SVLM(소형 시각-언어 모델)을 국소적 템포럴 압축기로 사용하여 긴 비디오를 하위 작업에 최적화된 압축 토큰으로 변환하는 엔드투엔드 프레임워크를 구축했다.
Adaptive Token Allocation (ATA)
추가 학습 없이도 질문과의 관련성에 따라 중요 구간에는 높은 대역폭을, 중복 구간에는 최소한의 앵커 토큰만 할당하는 O(1) 복잡도의 동적 라우팅 기법을 도입했다.
초장거리 비디오 이해 SOTA 달성
6B 규모의 모델로 1시간 이상의 비디오를 다루는 LVBench에서 GPT-4o 및 Gemini 1.5 Pro와 같은 거대 상용 모델을 능가하는 성능을 기록했다.
핵심 아이디어 이해하기
기존의 긴 비디오 처리 방식은 단순히 프레임을 띄엄띄엄 샘플링하거나(Sparse Sampling) 모든 프레임을 동일한 비율로 압축(Uniform Pooling)하여 중요한 찰나의 순간을 놓치는 문제가 있었다. 이는 Transformer 아키텍처에서 입력 토큰 수가 늘어날수록 핵심 정보를 찾지 못하는 'Lost-in-the-middle' 현상을 심화시킨다.
Tempo는 소형 시각-언어 모델(SVLM)의 Causal Attention 메커니즘을 활용해 이 문제를 해결한다. SVLM은 질문(Query)을 먼저 입력받은 상태에서 비디오 프레임을 처리하며, 각 프레임의 정보를 질문에 답하기 위해 필요한 핵심 '메모리 토큰'으로 응축한다. 이때 모델 내부의 인과적 어텐션 구조 덕분에 중요한 정보는 자연스럽게 앞쪽 토큰들에 집중되는 'Semantic Front-loading' 현상이 발생한다.
결과적으로 전체 비디오를 균일하게 처리하는 대신, 질문과 관련된 장면은 촘촘하게(최대 16토큰/프레임), 관련 없는 장면은 성기게(0.5토큰/프레임) 표현함으로써 제한된 컨텍스트 윈도우 내에서 정보 밀도를 극대화한다. 이는 마치 사람이 긴 영상을 보며 필요한 부분만 집중해서 기억하는 방식과 유사하게 동작한다.
방법론
Tempo는 SVLM 기반의 로컬 압축기와 LLM 기반의 글로벌 디코더라는 2단계 계층 구조로 구성된다. SVLM은 입력 비디오 세그먼트 와 사용자 질문 를 입력받아 고정된 크기 의 메모리 토큰 을 생성한다. 이 과정은 별도의 압축 손실 함수 없이 표준적인 다음 토큰 예측(Next-token prediction) 학습을 통해 자연스럽게 질문에 정렬된 정보를 추출하도록 유도된다.
추론 단계에서는 Adaptive Token Allocation(ATA)을 적용한다. 먼저 SVLM의 마지막 히든 스테이트 와 'Yes/No' 로짓 값을 이용하여 질문과의 관련성 점수 를 계산한다. [ 연산을 통해 0에서 1 사이의 확률값을 얻고, 이 값이 높을수록 해당 세그먼트가 질문에 중요함을 의미한다.]
계산된 점수에 따라 각 세그먼트에 할당할 토큰 수 를 동적으로 결정한다. [전체 예산 에서 최소 유지 비용인 앵커 토큰을 제외한 나머지 예산을 점수 비율에 맞춰 분배한다.] 이후 SVLM이 생성한 개의 토큰 중 앞부분 개만 잘라내어(Head Truncation) 글로벌 LLM에 전달한다. 이는 Causal Attention 특성상 앞쪽 토큰에 핵심 의미가 집중된다는 점을 이용한 제로 오버헤드 압축 방식이다.
관련 Figure

로컬 압축기(SVLM)가 세그먼트별로 메모리 토큰을 생성하고, ATA 컨트롤러가 제로샷 점수를 기반으로 토큰 수를 조절하여 글로벌 디코더(LLM)에 전달하는 과정을 시각화합니다. 이 구조를 통해 긴 비디오를 효율적으로 처리할 수 있습니다.
Tempo 프레임워크의 전체 아키텍처 다이어그램.
주요 결과
LVBench(평균 4101초 비디오) 실험에서 Tempo-6B는 8K 시각 토큰 예산만으로 52.3점을 기록하여 GPT-4o(30.8점)와 Gemini 1.5 Pro(33.1점)를 크게 앞섰다. 특히 4K 예산에서도 52.7점을 기록하며, 단순히 컨텍스트를 늘리는 것보다 정보 밀도를 높이는 것이 긴 비디오 이해에 더 효과적임을 입증했다.
Video-MME 벤치마크에서는 4K 예산으로 67.8점을 기록하여 기존 SOTA 모델인 VideoChat-Flash(65.3점)를 능가했다. Ablation Study 결과, 최소 앵커 토큰(Minimal Temporal Anchors)을 유지하는 것이 비디오의 전체적인 흐름과 인과 관계를 유지하는 데 필수적임이 확인되었다(Hard Pruning 대비 성능 우위).
관련 Figure

Video-MME Long에서는 4K 예산이 최적의 지점(Sweet spot)인 반면, 초장거리인 LVBench에서는 예산이 늘어날수록 성능이 지속적으로 향상됨을 보여줍니다. 이는 비디오 길이에 따라 필요한 정보 밀도가 다름을 시사합니다.
프레임 수와 토큰 예산에 따른 성능 변화 그래프.
기술 상세
Tempo 아키텍처는 Qwen3-VL-2B를 로컬 압축기로, Qwen3-LM-4B를 글로벌 디코더로 사용하는 6B 파라미터 규모다. 두 모델 사이는 선형 프로젝터(Linear Projector)로 연결된다. 학습은 4단계 점진적 커리큘럼(모달리티 정렬 → 프리트레이닝 → 광범위 SFT → 롱 컨텍스트 SFT)을 거치며, 마지막 단계에서는 SVLM을 동결하고 LLM의 컨텍스트 확장 능력에 집중한다.
ATA 메커니즘은 별도의 라우팅 네트워크 학습 없이 SVLM의 제로샷 관련성 판단 능력을 활용한다. 이는 모델이 이미 대규모 멀티모달 학습을 통해 이미지/비디오와 텍스트 사이의 정렬 능력을 갖추고 있다는 점에 착안한 것이다. 또한, 'Head Truncation' 기법은 KV 캐시 관리나 추가 연산 없이도 효과적인 토큰 선택이 가능하게 하여 추론 효율성을 극대화한다.
한계점
현재 ATA 메커니즘은 SVLM의 제로샷 능력에 의존하고 있어, 질문의 의도를 파악하는 정밀도를 높이기 위해 사후 학습(Post-training)을 통한 라우팅 정책 최적화가 향후 과제로 남아 있습니다. 또한 멀티턴 대화 시 매번 비디오 특징을 재추출해야 하는 비효율성이 존재합니다.
실무 활용
1시간 이상의 긴 영상에서 특정 정보를 찾거나 요약해야 하는 서비스에 즉시 적용 가능한 고효율 프레임워크입니다. 적은 연산 자원으로도 거대 모델 이상의 정확도를 낼 수 있어 서버 비용 절감에 유리합니다.
- CCTV나 블랙박스 영상에서 특정 사건(예: 노란 로프를 든 사람) 검색 및 분석
- 긴 강의나 회의 영상에서 질문에 해당하는 답변 구간 추출 및 요약
- Vlog 등 긴 영상 콘텐츠의 자동 카테고리 분류 및 하이라이트 생성
코드 공개 여부: 공개
코드 저장소 보기관련 Figure

특정 행동(야크 올가미질)을 묻는 질문에는 해당 시점에 토큰이 집중되는 반면, 전체 요약 질문에는 비디오 전반에 걸쳐 고르게 토큰이 할당되는 것을 확인할 수 있습니다. 이는 ATA가 질문의 의도를 정확히 반영함을 증명합니다.
질문 유형에 따른 동적 토큰 할당의 정성적 예시.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.