적응형 비디오 토큰화를 위한 Latent Inpainting Transformer (LIT)

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

비디오의 시간적 중복성을 활용해 동적으로 토큰을 할당하고, Latent Inpainting Transformer로 복원하여 추론 속도를 획기적으로 개선한 연구.

배경

비디오 토큰화 과정에서 영상의 복잡도에 따라 토큰 예산을 동적으로 할당하는 새로운 적응형 기법과 이를 위한 Latent Inpainting Transformer(LIT) 아키텍처가 제안되었다.

의미 / 영향

이 연구는 비디오 처리에서 토큰 효율성을 높이기 위해 복잡한 라우팅 네트워크 대신 데이터 자체의 시간적 중복성을 활용하는 방향을 제시한다. LIT 아키텍처는 추론 속도를 획기적으로 개선하여 실시간 비디오 생성 및 이해 모델의 경량화에 기여할 것으로 보인다.

섹션별 상세

기존의 연속적 비디오 토큰화 방식은 반복적인 이진 탐색이나 훈련된 회귀 모델을 사용해 계산 오버헤드가 컸다. 이 연구는 비디오 토큰화 과정에서 시간적 중복성을 직접 활용하는 방식을 제안한다. 연속된 프레임 간 변화가 적은 위치의 토큰을 제거하는 적응형 토큰 할당 메커니즘을 적용했다. 이를 통해 정적인 장면은 압축하고 동적인 장면은 토큰을 유지하여 효율성을 높였다.

제거된 토큰을 복원하기 위해 Latent Inpainting Transformer(LIT)라는 경량화된 시공간 어텐션 아키텍처를 도입했다. LIT는 단일 인코더 패스와 한 번의 순전파만으로 추론을 완료하여 별도의 라우팅 네트워크가 필요 없다. TokenBench와 DAVIS 벤치마크 평가 결과, 기존 ElasticTok-CV 대비 31배, InfoTok 대비 2배의 추론 속도 향상을 기록했다.

실무 Takeaway

비디오의 시간적 중복성을 활용하면 추가적인 라우팅 네트워크 없이도 효율적인 토큰 압축이 가능하다.
Latent Inpainting Transformer(LIT)는 생략된 토큰을 복원하는 데 최적화된 경량화된 시공간 어텐션 구조를 제공한다.
제안된 기법은 TokenBench와 DAVIS 벤치마크에서 기존 방식 대비 최대 31배의 추론 속도 향상을 달성했다.

언급된 리소스

논문Adaptive video tokenisation (arXiv)