In-Context Sparse Attention을 통한 번개처럼 빠른 통합 비디오 편집

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

비디오 편집 모델이 길어지는 영상 길이에 따라 연산량이 기하급수적으로 늘어나는 문제를 해결했다. 문맥 토큰의 중요도를 선별적으로 계산하는 새로운 Sparse Attention 기법을 통해 시각적 품질 저하 없이 처리 속도를 획기적으로 높였다.

왜 중요한가

비디오 편집 모델이 길어지는 영상 길이에 따라 연산량이 기하급수적으로 늘어나는 문제를 해결했다. 문맥 토큰의 중요도를 선별적으로 계산하는 새로운 Sparse Attention 기법을 통해 시각적 품질 저하 없이 처리 속도를 획기적으로 높였다.

핵심 기여

In-context Sparse Attention (ISA) 제안

비디오 편집 시 문맥 토큰의 중요도가 소스 토큰보다 낮다는 점에 착안하여, 불필요한 문맥을 제거하고 쿼리의 날카로움(Sharpness)에 따라 연산 경로를 동적으로 할당하는 프레임워크를 구축했다.

LIVEditor 모델 및 1.7M 규모 데이터셋 구축

ISA를 적용한 고속 비디오 편집 모델 LIVEditor를 개발하고, VLM과 확산 모델을 활용한 자동화 파이프라인으로 170만 개의 고품질 비디오 편집 쌍 데이터를 확보했다.

0차 테일러 근사를 활용한 연산 효율화

오차율이 낮은 쿼리에 대해 0차 테일러 전개 기반의 Sparse Attention을 적용하여 연산 복잡도를 O(N²D)에서 O(N²D/b) 수준으로 낮추면서도 성능 손실을 최소화했다.

핵심 아이디어 이해하기

Transformer 아키텍처의 Self-Attention은 모든 토큰 간의 관계를 계산하므로 시퀀스 길이가 늘어날수록 연산량이 제곱으로 증가한다. 특히 비디오 편집에서는 원본 영상(Source)과 편집 지시 문맥(Context)이 결합되면서 토큰 수가 두 배로 늘어나 연산 병목이 심화된다.

이 논문은 모든 문맥 토큰이 결과물에 동일한 영향을 주지 않는다는 점에 주목했다. 먼저 중요도가 낮은 문맥 토큰을 사전에 제거(Pruning)하여 연산 대상을 줄인다. 그 다음, 각 쿼리 블록의 통계적 분산인 'Sharpness'를 측정한다. Sharpness가 높은 쿼리는 세밀한 계산이 필요하므로 기존의 Full Attention을 수행하고, Sharpness가 낮은 쿼리는 블록 단위의 평균값을 사용하는 0차 테일러 근사법으로 빠르게 처리한다.

결과적으로 모델은 중요한 정보에는 자원을 집중하고, 덜 중요한 정보는 근사치로 대체함으로써 전체적인 연산 속도를 높이면서도 원본의 시각적 특징을 정확하게 유지한다.

방법론

ISA의 핵심은 Pre-selection과 Grouped Computation 두 단계로 나뉜다. Pre-selection 단계에서는 Pooling Attention을 통해 문맥 토큰의 중요도를 평가하고, 상위 k개의 핵심 블록만 남겨 연산 복잡도를 O(N(Lsrc + αsLctx)D)로 줄인다.

Grouped Computation 단계에서는 쿼리 블록 Qi의 Softmax 분포 분산인 Mi를 계산한다. [Qi 입력 → 분산 연산 → Mi 출력] 과정을 거쳐 Mi가 임계값보다 높으면 'Sharp' 그룹으로, 낮으면 'Flat' 그룹으로 분류한다. Sharp 그룹은 FlashAttention v2/3를 사용하여 정밀하게 계산하고, Flat 그룹은 0차 테일러 근사 커널을 적용한다.

0차 테일러 근사는 [쿼리 Qi와 압축된 키 Kcj 입력 → 지수 함수 연산 → 출력 Oi] 과정을 수행하며, 블록 내 개별 토큰 대신 블록 평균값을 활용해 연산량을 획기적으로 줄인다. 이 모든 과정은 Triton 기반의 커스텀 커널로 구현되어 하드웨어 가속 효율을 극대화했다.

주요 결과

LIVEditor(ISA)는 EditVerseBench에서 기존 SOTA 모델인 EditVerse 대비 Quality 점수 7.89(기존 7.65), Editing Quality 24.55(기존 23.93)를 기록하며 성능 우위를 입증했다. 특히 Attention 모듈의 지연 시간을 표준 SDPA 대비 약 60% 단축했다.

시퀀스 길이가 4,096에서 131,072로 늘어남에 따라 ISA의 가속 효과는 더욱 뚜렷해졌으며, 131,072 길이에서 FlashAttention 2 대비 약 3배 이상의 속도 향상을 보였다. 또한 93.75%의 높은 Sparsity를 달성하면서도 시각적 품질 손실이 거의 없는 'Near-lossless' 가속을 실현했다.

기술 상세

ISA는 ICL(In-Context Learning) 패러다임의 비디오 편집에서 소스 토큰과 문맥 토큰의 Saliency 차이를 이론적으로 분석하여 설계되었다. 쿼리 Sharpness가 테일러 근사 오차와 양의 상관관계가 있음을 수학적으로 증명하고, 이를 동적 라우팅의 지표로 활용했다.

아키텍처 측면에서는 Decoupled RoPE 전략을 도입하여 소스 비디오와 문맥 비디오의 길이 차이로 인한 위치 편향(Positional Bias)을 제거했다. 학습은 1.7M 규모의 대규모 데이터셋으로 일반적 편집 능력을 학습시킨 후, 0.089M의 고정밀 데이터셋으로 미세 조정하는 2단계 전략을 사용했다. 구현에는 Triton과 TileLang을 활용하여 Hopper GPU 아키텍처에 최적화된 블록 단위 Sparse Attention 커널을 구축했다.

한계점

본 논문은 ISA 기법이 Flat Ratio 파라미터에 민감하며, 이 값이 너무 낮아질 경우 성능이 급격히 저하될 수 있음을 명시했다. 또한 현재의 가속 효과가 주로 Attention 모듈에 집중되어 있어 전체 모델 파이프라인의 다른 부분에서의 병목 현상은 여전히 존재할 수 있다.

실무 활용

고해상도 및 장편 비디오 편집 서비스에서 연산 비용을 절감하고 실시간성을 확보하는 데 즉시 적용 가능하다.

모바일 기기에서의 고속 비디오 스타일 변환 및 객체 제거
클라우드 기반 비디오 편집 플랫폼의 GPU 추론 비용 최적화
장편 영상 콘텐츠의 일관성 있는 배경 변경 및 편집 자동화

코드 공개 여부: 비공개

키워드

ICL(인컨텍스트 러닝)Sparse Attention(희소 어텐션)Video Editing(비디오 편집)Taylor Approximation(테일러 근사)Latency Optimization(지연 시간 최적화)