왜 중요한가
기존 비디오 분석 모델은 모든 화면 데이터를 동일하게 처리하여 고해상도 장편 영상을 다루는 데 막대한 비용이 발생했다. AutoGaze는 인간이 중요한 부분만 골라 보는 원리를 도입해 연산량을 획기적으로 줄이면서도 4K 해상도의 긴 영상을 실시간 수준으로 분석할 수 있게 한다.
핵심 기여
AutoGaze 프레임워크
비디오 트랜스포머(ViT)와 LLM 입력 전 단계에서 중복 패치를 제거하는 300만 파라미터 규모의 경량 모듈을 제안함.
자기회귀적 패치 선택
이전 프레임 정보와 현재 특징을 결합하여 영상을 재구성하는 데 필요한 최소한의 다중 스케일 패치를 순차적으로 선택함.
2단계 학습 파이프라인
탐욕적 탐색 데이터 기반의 Next-Token Prediction 사전 학습과 재구성 보상을 활용한 GRPO 강화학습을 결합함.
HLVid 벤치마크 구축
5분 길이의 4K 고해상도 비디오 질의응답을 위한 새로운 데이터셋을 구축하여 모델의 확장성과 세부 정보 인식 능력을 검증함.
핵심 아이디어 이해하기
Transformer의 Self-Attention 메커니즘은 시퀀스 길이의 제곱에 비례하는 연산 복잡도를 가지며, 비디오의 모든 픽셀을 처리할 때 고해상도와 장기 시퀀스에서 심각한 메모리 병목이 발생한다. 특히 배경처럼 변화가 없는 정적인 영역까지 매번 계산하는 것은 자원 낭비이다.AutoGaze는 인간의 시각적 응시 메커니즘을 모방하여, 현재 프레임의 특징과 이전 프레임의 재구성 이력을 바탕으로 정보량이 높은 패치만 자기회귀적으로 선택한다. 모델은 현재 프레임에서 새로운 정보가 어디에 있는지 예측하고, 그 부분만 고해상도로, 나머지는 저해상도로 보거나 건너뛰는 방식으로 데이터를 압축한다.이러한 접근은 비디오를 본격적으로 분석하기 전에 중요한 조각들만 먼저 골라내는 필터 역할을 한다. 선택된 최소한의 패치만 ViT에 입력함으로써 시각적 토큰 수를 최대 100배까지 줄이며, 이는 기존에 불가능했던 1,000프레임 이상의 4K 영상을 효율적으로 처리할 수 있게 한다.
방법론
AutoGaze는 Convolutional Encoder와 4개 레이어의 Transformer Decoder로 구성된 300만 파라미터 규모의 모듈이다. 각 프레임이 입력되면 인코더는 특징을 추출하고, 디코더는 이전에 선택된 패치들과 현재 특징을 바탕으로 다음 패치 인덱스를 하나씩 생성한다. [비디오 프레임과 이전 패치 이력 입력 → 디코더가 다음 패치 위치 예측 → 재구성 손실이 임계값 이하가 될 때까지 반복 → 선택된 최소 패치 세트 출력]학습은 두 단계로 진행된다. 먼저 25만 개의 비디오에서 탐욕적 탐색으로 얻은 최적 패치 시퀀스를 사용하여 Next-Token Prediction 손실을 최소화하도록 사전 학습한다. [비디오와 정답 패치 시퀀스 입력 → 모델 예측 확률 계산 → 정답과의 차이인 Cross-Entropy 도출 → 가중치 갱신 → 기본 게이징 능력 확보]두 번째 단계에서는 GRPO 강화학습을 적용한다. 모델이 생성한 패치들로 원본 영상을 재구성했을 때의 손실을 보상으로 사용하여, 더 적은 패치로 더 정확하게 재구성하도록 최적화한다. [모델이 패치 선택 → VideoMAE로 영상 재구성 → 재구성 오차의 음수값을 보상으로 전달 → 더 효율적인 선택 전략 학습]
주요 결과
AutoGaze는 시각적 토큰 수를 4배에서 100배까지 줄였으며, 이로 인해 ViT 추론 속도는 최대 19배, 전체 MLLM 속도는 10배 향상되었다. 특히 30 FPS의 4K 영상에서는 단 1%의 패치만으로도 충분한 정보를 유지할 수 있음을 입증했다.새로 제안된 HLVid 벤치마크(5분 길이, 4K 영상)에서 AutoGaze를 적용한 NVILA 모델은 베이스라인 대비 10.1% 향상된 52.6%의 정확도를 달성했다. 이는 GPT-4o(49.3%)와 같은 강력한 상용 모델들을 능가하는 수치이다.VideoMME 벤치마크에서도 67.0%의 점수를 기록하며 고해상도 장편 비디오 이해 분야에서 SOTA 성능을 보여주었다. Ablation Study 결과, 사전 학습과 강화학습을 모두 사용했을 때 가장 낮은 게이징 비율(0.094)로 목표 품질을 달성했다.
실무 활용
고해상도 CCTV 분석이나 자율 주행 영상 처리처럼 실시간성과 세부 정보 인식이 모두 중요한 환경에서 연산 비용을 획기적으로 낮출 수 있다.
- 실시간 보안 관제 시스템의 이상 행동 감지 및 추적
- 자율 주행 차량의 고해상도 주변 환경 인식 및 장애물 판단
- 장편 강의 영상 내 특정 주제 구간 자동 추출 및 요약
- 드론 촬영 영상의 실시간 고해상도 객체 추적 및 지형 매핑
기술 상세
AutoGaze 아키텍처는 LLaMA 3 설계를 따르되 4개의 레이어만 사용하는 초경량 구조로 설계되었다. 입력 프레임은 224x224 해상도로 인코딩되며, 디코더는 32x32부터 224x224까지 4가지 스케일의 패치 인덱스(총 265개)를 어휘로 가진다.재구성 모델로는 VideoMAE를 사용하며, 손실 함수는 픽셀 단위의 L1 손실과 DINOv2 및 SigLIP2 임베딩 기반의 지각적 손실을 1:0.3:0.3 비율로 가중합하여 정의한다. 이를 통해 단순 픽셀 일치를 넘어 시각적 의미가 중요한 영역을 우선적으로 선택하도록 유도한다.추론 시에는 사용자가 설정한 재구성 오차 임계값(0.7)에 도달하면 즉시 패치 선택을 멈추는 조기 종료 메커니즘을 사용한다. 이는 비디오의 복잡도에 따라 연산량을 동적으로 할당할 수 있게 하여 효율성을 극대화한다.기존의 토큰 프루닝 방식들이 주로 LLM 내부에서 작동하여 ViT의 연산 병목을 해결하지 못한 것과 달리, AutoGaze는 ViT 입력 단계 이전에 패치를 제거함으로써 전체 파이프라인의 메모리 및 연산 효율을 근본적으로 개선한다.
한계점
카메라의 급격한 움직임(Panning)이 있을 때 중복된 패치를 완벽하게 식별하지 못하는 한계가 있다. 또한 물리 법칙에 대한 사전 지식이 없어 떨어지는 공의 궤적과 같은 미래 프레임을 물리적으로 정확하게 예측하여 재구성하는 능력은 부족하다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.