핵심 요약
비디오 생성 AI는 모든 장면에 동일한 양의 데이터를 할당하여 정적인 장면에서는 자원을 낭비하고 복잡한 장면에서는 품질이 떨어지는 문제가 있었다. 이 논문은 장면의 복잡도를 스스로 판단해 데이터 할당량을 조절하는 EVATok 프레임워크를 제안하여, 영상 품질은 높이면서도 연산 비용을 획기적으로 줄였다.
왜 중요한가
비디오 생성 AI는 모든 장면에 동일한 양의 데이터를 할당하여 정적인 장면에서는 자원을 낭비하고 복잡한 장면에서는 품질이 떨어지는 문제가 있었다. 이 논문은 장면의 복잡도를 스스로 판단해 데이터 할당량을 조절하는 EVATok 프레임워크를 제안하여, 영상 품질은 높이면서도 연산 비용을 획기적으로 줄였다.
핵심 기여
4단계 적응형 토큰화 프레임워크
프록시 토큰화, 데이터 큐레이션, 라우터 학습, 최종 적응형 토큰화로 이어지는 체계적인 파이프라인을 구축하여 학습과 추론 사이의 성능 격차를 해소했다.
프록시 리워드(Proxy Reward) 지표
재구성 품질과 토큰 비용 사이의 최적의 균형점을 수치화하여 각 비디오에 맞는 최적의 토큰 할당량을 결정하는 정량적 기준을 마련했다.
경량 라우터(Router) 설계
ViT 기반의 가벼운 모델이 비디오를 한 번 훑는 것만으로도 최적의 토큰 할당 전략을 실시간으로 예측하도록 설계하여 연산 오버헤드를 최소화했다.
비디오 시맨틱 인코더 통합
VideoMAE와 같은 사전 학습된 의미론적 인코더를 학습 과정에 통합하여 단순 픽셀 복원을 넘어 영상의 의미적 일관성과 시각적 품질을 강화했다.
핵심 아이디어 이해하기
기존 비디오 토큰화는 Transformer 아키텍처를 기반으로 영상을 작은 패치로 나누어 고정된 개수의 토큰으로 변환한다. 하지만 하늘이 펼쳐진 정적인 배경과 빠르게 움직이는 스포츠 장면이 동일한 개수의 토큰을 사용하는 것은 정보 밀도 측면에서 매우 비효율적이며, 이는 곧 생성 모델의 연산 낭비로 이어진다. EVATok은 이 문제를 해결하기 위해 장면별 맞춤형 예산 할당 원리를 도입한다. 먼저 다양한 토큰 할당 시나리오에서 영상이 얼마나 잘 복원되는지 측정하는 프록시 리워드를 정의한다. 이는 복원 오차(LPIPS)와 토큰 길이(L)를 가중치로 결합한 값으로, 모델이 최소한의 토큰으로 최대한의 품질을 내는 지점을 찾게 한다. 이렇게 찾은 최적의 할당 데이터를 바탕으로 가벼운 라우터 모델을 학습시킨다. 라우터는 비디오의 특징을 파악해 이 구간은 단순하니 32개 토큰만 쓰고, 저 구간은 복잡하니 512개를 쓰라고 지시한다. 결과적으로 전체 토큰 사용량은 줄이면서도 중요한 정보가 밀집된 구간에 자원을 집중시켜 효율과 품질을 동시에 잡는 구조를 완성했다.
방법론
프레임워크는 총 4단계로 구성된다. 1단계에서는 무작위로 샘플링된 토큰 할당량 하에서 비디오를 재구성하는 프록시 토큰라이저(Proxy Tokenizer)를 학습시킨다. 이는 이후 단계에서 각 할당 전략의 품질을 평가하는 척도 역할을 한다. 2단계에서는 프록시 리워드 R_proxy = w_q * Q(x, a) - w_l * L(a)를 사용하여 데이터셋을 구축한다. [재구성 품질 Q와 토큰 길이 L을 입력으로] → [가중치 w_q, w_l을 곱해 차이를 계산하여] → [단일 리워드 숫자를 얻고] → [이 값이 높을수록 효율적인 할당임을 의미한다]. 브루트 포스 탐색을 통해 각 비디오에 대해 리워드를 최대화하는 최적의 할당 a*를 찾아 데이터셋을 만든다. 3단계에서는 ViT-S 아키텍처 기반의 경량 라우터를 학습시킨다. 입력 비디오를 3D 임베딩으로 변환한 뒤 [CLS] 토큰을 통해 가능한 할당 카테고리 중 하나로 분류하도록 크로스 엔트로피 손실 함수를 사용한다. [각 클래스 점수 z_i를 입력으로] → [지수 함수 e^z_i를 전체 합으로 나누어] → [확률 분포를 얻고] → [정답 클래스의 확률을 높이는 방향으로 가중치를 갱신한다]. 4단계에서는 라우터가 예측한 할당량을 조건으로 최종 적응형 토큰라이저를 처음부터 학습시킨다. 이때 VideoMAE-B와 같은 사전 학습된 비디오 시맨틱 인코더를 판별기(Discriminator)로 활용하여 시각적 품질을 극대화한다.
주요 결과
UCF-101 데이터셋의 비디오 재구성 실험에서 기존 SOTA 모델인 LARP 대비 토큰 사용량을 24.4% 절감하면서도 동등하거나 우수한 품질을 달성했다. 특히 rFVD 지표에서 고정 길이 베이스라인보다 우수한 성능을 보이며 효율성을 입증했다. 자기회귀(AR) 생성 모델과의 결합 실험에서도 효과가 나타났다. UCF-101 클래스-비디오 생성 작업에서 gFVD 48점을 기록하며, 고정 길이 모델 대비 27.7% 적은 토큰으로도 더 자연스러운 영상을 생성했다. 이는 적응형 토큰화가 하류 생성 작업의 비용을 직접적으로 줄여줌을 보여준다. WebVid-10M 데이터셋을 활용한 대규모 검증에서도 라우터 기반 할당 방식이 브루트 포스 탐색 결과에 근접하는 품질-비용 트레이드오프 곡선을 형성했다. 라우터는 56%의 토큰 절감 효과를 거두면서도 재구성 품질을 유지하여, 보지 못한 데이터에 대해서도 최적의 할당 전략을 잘 일반화함을 확인했다.
기술 상세
아키텍처는 Q-Former 스타일의 1D 토크나이저 설계를 채택하여 가변 길이 토큰화에 대한 유연성을 확보했다. 입력 비디오는 8x 공간 다운샘플링과 4x 시간 다운샘플링을 거쳐 3D 임베딩으로 변환되며, 각 시간 블록마다 라우터가 지정한 개수의 1D 쿼리가 시각 정보를 인코딩한다. 시간적 인과성(Temporal Causality)을 유지하기 위해 Q-Former 인코더와 디코더에 인과적 어텐션 마스크(Causal Attention Mask)를 적용했다. [현재 시점 t의 쿼리를 입력으로] → [이전 시점 1부터 t까지의 임베딩에만 어텐션을 수행하여] → [미래 정보를 차단한 특징을 추출하고] → [자기회귀 생성 모델이 순차적으로 토큰을 생성할 수 있는 구조를 보장한다]. 학습 레시피에는 VideoMAE-B 특징을 활용한 표현 정렬 손실 L_align이 포함된다. [디코더의 중간 3D 특징과 사전 학습된 시맨틱 특징을 입력으로] → [패치 단위의 코사인 유사도를 계산하여] → [유사도를 최대화하는 방향으로 학습하고] → [모델이 픽셀 수준을 넘어 영상의 고수준 의미 구조를 학습하도록 유도한다]. 추론 시에는 라우터가 먼저 비디오를 분석해 각 시간 블록별 토큰 개수를 결정하는 특수 토큰을 생성한다. AR 모델은 이 특수 토큰을 먼저 예측한 뒤, 해당 개수만큼의 시각 토큰을 생성하는 방식으로 동작하여 가변 길이 시퀀스를 안정적으로 처리한다.
한계점
본 연구는 16x128x128 해상도의 짧은 비디오 클립에 대해서만 실험이 진행되었으며, 더 높은 해상도나 긴 지속 시간을 가진 산업 수준의 비디오에 대한 검증은 이루어지지 않았다. 또한 텍스트-비디오 생성과 같은 더 복잡한 하류 작업에 대한 성능 검증이 향후 과제로 남아있다.
실무 활용
비디오 생성 및 압축 분야에서 연산 자원을 효율적으로 배분할 수 있는 실무적 프레임워크를 제공한다. 특히 모바일 기기나 클라우드 비용 최적화가 필요한 서비스에서 고품질 영상 생성을 가능하게 한다.
- 실시간 영상 스트리밍 서비스의 적응형 대역폭 압축
- 모바일 기기용 경량 비디오 생성 에이전트
- 대규모 비디오 데이터셋의 효율적인 인덱싱 및 저장
- 보안 카메라 영상 중 유의미한 움직임 구간 집중 인코딩
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.