핵심 요약
자기회귀(Autoregressive, AR) 비디오 생성 모델은 픽셀을 이산 토큰 시퀀스(discrete token sequences)로 압축하는 비디오 토크나이저(video tokenizer)에 의존합니다. 이러한 토큰 시퀀스의 길이는 재구성 품질과 다운스트림 생성의 계산 비용 사이의 균형을 맞추는 데 매우 중요합니다. 기존의 비디오 토크나이저는 서로 다른 비디오의 시간적 블록(temporal blocks)에 대해 균일한 토큰 할당(uniform token assignment)을 적용하여, 단순하거나 정적이거나 반복적인 구간에는 토큰을 낭비하고 역동적이거나 복잡한 구간에는 토큰이 부족하게 할당되는 경우가 많았습니다. 이러한 비효율성을 해결하기 위해, 본 논문에서는 효율적인 비디오 가변 토크나이저(Efficient Video Adaptive Tokenizers)인 EVATok 프레임워크를 제안합니다. 이 프레임워크는 각 비디오에 대해 최적의 품질-비용 트레이드오프를 달성하기 위한 최적의 토큰 할당량을 추정하고, 이러한 최적 할당을 빠르게 예측하기 위한 경량 라우터(lightweight routers)를 개발하며, 라우터가 예측한 할당량에 따라 비디오를 인코딩하는 가변 토크나이저를 학습시킵니다. 실험 결과, EVATok은 비디오 재구성 및 다운스트림 AR 생성에서 효율성과 전반적인 품질을 크게 향상시킴을 입증했습니다. 비디오 시맨틱 인코더(video semantic encoders)를 통합한 고급 학습 레시피를 통해 EVATok은 UCF-101 데이터셋에서 우수한 재구성 성능과 최첨단(SOTA) 클래스-비디오 생성(class-to-video generation) 성능을 달성했으며, 기존 SOTA 모델인 LARP 및 고정 길이 베이스라인 대비 평균 토큰 사용량을 최소 24.4% 절감했습니다.
핵심 기여
가변 길이 비디오 토큰화 프레임워크 제안
비디오의 시각적 복잡도에 따라 토큰 수를 동적으로 조절하여 정적 구간의 낭비를 줄이고 동적 구간의 표현력을 높이는 EVATok을 개발했다.
경량 라우터를 통한 실시간 최적 할당 예측
각 비디오 블록에 필요한 최적의 토큰 수를 빠르게 결정할 수 있는 경량 라우터 구조를 도입하여 추론 효율성을 확보했다.
비디오 시맨틱 인코더 통합 학습
시맨틱 정보를 활용한 향상된 학습 레시피를 적용하여 재구성 품질과 생성 성능을 동시에 끌어올렸다.
방법론
비디오를 시간적 블록으로 나누고 각 블록의 복잡도를 평가하여 최적의 토큰 수를 할당하는 적응형 메커니즘을 사용한다. 경량 라우터가 입력 비디오의 특징을 분석해 토큰 할당량을 결정하면, 가변 토크나이저가 이에 맞춰 이산 토큰 시퀀스를 생성하며 비디오 시맨틱 인코더를 활용해 정보 보존력을 극대화한다.
주요 결과
UCF-101 벤치마크에서 기존 최고 성능 모델인 LARP 및 고정 길이 방식 대비 토큰 사용량을 평균 24.4% 이상 절감했다. 재구성 품질과 클래스-비디오 생성 성능 모두에서 최첨단 수치를 기록했다.
시사점
비디오 생성 모델의 고질적인 문제인 높은 계산 비용을 낮추어 긴 영상 생성이나 고해상도 비디오 모델의 실무 적용 가능성을 높인다. 모바일이나 엣지 환경에서의 효율적인 비디오 AI 서비스 구현에 기여한다.
키워드
섹션별 상세
가변 길이 비디오 토큰화 프레임워크 제안
경량 라우터를 통한 실시간 최적 할당 예측
비디오 시맨틱 인코더 통합 학습
AI 요약 · 북마크 · 개인 피드 설정 — 무료