SwiftI2V: 조건부 세그먼트 단위 생성을 통한 효율적인 고해상도 이미지-비디오 생성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

고해상도 이미지-비디오(I2V) 생성은 막대한 연산 비용과 입력 이미지의 세부 사항 유지라는 두 가지 난제를 안고 있다. SwiftI2V는 움직임과 세부 묘사를 분리한 2단계 접근법과 세그먼트 단위 생성 기법을 통해 기존 SOTA 모델 대비 GPU 시간을 202배 단축하면서도 2K 해상도의 고품질 비디오를 생성한다. 이는 고성능 데이터센터 GPU뿐만 아니라 일반 소비자용 GPU에서도 전문적인 영상 제작이 가능함을 시사한다.

왜 중요한가

고해상도 이미지-비디오(I2V) 생성은 막대한 연산 비용과 입력 이미지의 세부 사항 유지라는 두 가지 난제를 안고 있다. SwiftI2V는 움직임과 세부 묘사를 분리한 2단계 접근법과 세그먼트 단위 생성 기법을 통해 기존 SOTA 모델 대비 GPU 시간을 202배 단축하면서도 2K 해상도의 고품질 비디오를 생성한다. 이는 고성능 데이터센터 GPU뿐만 아니라 일반 소비자용 GPU에서도 전문적인 영상 제작이 가능함을 시사한다.

관련 Figure

Chart
SwiftI2V가 실행 시간과 메모리 사용량 측면에서 모두 우수하면서도 입력 이미지에 대한 충실도(I2V fidelity)를 가장 잘 유지함을 시각적으로 보여준다. 이는 제안된 2단계 구조의 효율성을 입증한다.
SwiftI2V와 기존 방식(End-to-end, LR+VSR)의 런타임, 메모리, 충실도 비교표

핵심 기여

SwiftI2V 프레임워크

저해상도 움직임 참조 생성과 고해상도 세부 묘사 합성 단계를 분리하여 연산 효율성과 입력 이미지 충실도를 동시에 확보한 2단계 I2V 프레임워크이다.

Conditional Segment-wise Generation (CSG)

비디오를 연속적인 세그먼트로 나누어 생성함으로써 단계별 토큰 예산을 제한하고, 메모리 사용량을 일정하게 유지하여 긴 영상 생성을 가능하게 한다.

Bidirectional Contextual Interaction

세그먼트 내에서 이전 프레임과 현재 생성 중인 프레임이 양방향으로 상호작용하도록 설계하여 세그먼트 간 불연속성을 방지하고 일관성을 높인다.

Stage-Transition Training

1단계에서 발생하는 노이즈와 아티팩트를 2단계 학습 데이터에 주입하여 두 단계 사이의 인터페이스 격차를 줄이고 생성 안정성을 강화한다.

핵심 아이디어 이해하기

기존의 Diffusion Transformer(DiT) 기반 비디오 생성은 해상도가 높아질수록 Self-Attention 연산량이 시퀀스 길이의 제곱에 비례하여 증가하는 문제를 겪는다. 특히 2K 해상도에서는 모든 토큰을 한꺼번에 처리하는 것이 메모리 한계로 인해 불가능에 가깝다. SwiftI2V는 '전역적인 움직임은 저해상도에서도 충분히 파악 가능하며, 고해상도 단계는 입력 이미지의 세부 사항을 복원하는 데 집중해야 한다'는 직관에서 출발한다.

이를 해결하기 위해 전체 비디오를 한 번에 생성하는 대신 Conditional Segment-wise Generation(CSG)을 도입한다. 이는 비디오를 짧은 시간 단위인 세그먼트로 쪼개어 처리함으로써 한 번에 계산해야 할 토큰 수를 일정하게 묶어두는 방식이다. 이때 단순히 순차적으로 생성하면 앞뒤 세그먼트가 끊겨 보일 수 있는데, 이를 방지하기 위해 Bidirectional Contextual Interaction을 사용한다.

이 메커니즘은 현재 생성 중인 세그먼트가 이전 세그먼트의 정보를 참조할 뿐만 아니라, 이전 세그먼트의 마지막 부분도 현재 세그먼트의 맥락에 맞춰 동적으로 반응하게 만든다. 결과적으로 전체 비디오의 일관성을 유지하면서도 메모리 사용량을 획기적으로 줄여 소비자용 GPU에서도 2K 영상 생성이 가능해진다.

방법론

SwiftI2V는 두 단계의 파이프라인으로 구성된다. 1단계(Stage I)에서는 입력 이미지를 360P로 다운샘플링한 후 대용량 DiT를 사용하여 저해상도 움직임 참조(Motion Reference)를 생성한다. [입력 이미지 x → Down(x) → DiT G1 → 저해상도 비디오 V_LR] 과정을 거쳐 전역적인 움직임 구조를 먼저 정의한다.

2단계(Stage II)는 고해상도 세부 묘사 단계로, 1단계 결과물을 2K로 업샘플링한 뒤 입력 이미지와 채널 단위로 결합(Concatenate)하여 조건부 입력을 만든다. [업샘플링된 비디오 V_up + 원본 이미지 x → 3D VAE Encoder → 잠재 변수 z_ref] 순으로 연산하여 고해상도 합성을 위한 가이드를 제공한다.

핵심 기법인 CSG는 시간축을 S개의 세그먼트로 분할하여 처리한다. 각 세그먼트 s는 M개의 노이즈 블록과 N개의 인접 컨텍스트 블록으로 구성된다. [세그먼트 윈도우 Ws 내의 토큰들 → 양방향 Attention → 업데이트된 잠재 변수] 과정을 통해 세그먼트 단위로 노이즈를 제거하며, 생성된 결과는 다음 세그먼트의 컨텍스트로 활용되어 스트리밍 방식의 출력을 지원한다.

관련 Figure

Diagram
저해상도 움직임 생성(Stage I)과 고해상도 세부 묘사 모델링(Stage II)의 연결 구조를 상세히 설명한다. 특히 하이브리드 참조 구성과 세그먼트 단위 생성 과정을 도식화하여 이해를 돕는다.
SwiftI2V의 전체 프레임워크 개요도

주요 결과

VBench-I2V 2K 해상도 벤치마크에서 SwiftI2V는 총점 6.4244를 기록하여 기존 SOTA 모델인 CineScale(6.3638)과 LTX-2(6.3579)를 상회하는 성능을 보였다. 특히 배경 일관성(I2V Background) 점수에서 0.9975로 가장 높은 수치를 기록하며 입력 이미지의 구조를 완벽하게 보존함을 입증했다.

효율성 측면에서 SwiftI2V는 81프레임의 2K 비디오를 생성하는 데 단일 H800 GPU 기준 111초가 소요되었다. 이는 4개의 GPU를 사용해 5600초가 걸리는 CineScale 대비 GPU 시간 기준 약 202배 빠른 속도이다. 또한 소비자용 GPU인 RTX 4090(24GB VRAM)에서도 약 380초 만에 2K 비디오 생성을 완료하며 실용성을 증명했다.

관련 Figure

Chart
CSG를 적용하지 않았을 때(w/o PSG)는 메모리와 시간이 기하급수적으로 증가하는 반면, SwiftI2V는 프레임 수에 관계없이 메모리가 일정하게 유지되고 시간은 선형적으로 증가함을 보여준다.
프레임 수 증가에 따른 Stage II의 피크 메모리 및 DiT 실행 시간 변화 그래프

기술 상세

SwiftI2V의 아키텍처는 움직임 모델링을 위한 대형 DiT(Stage I)와 세부 묘사 합성을 위한 소형 DiT(Stage II)의 비대칭 구조를 취한다. Stage II는 움직임을 새로 학습할 필요가 없으므로 파라미터 수를 줄여 연산 효율을 높였다. 고해상도 처리를 위해 (16, 16, 4)의 높은 압축률을 가진 3D VAE를 채택하여 토큰 수를 최적화했다.

CSG의 Bidirectional Contextual Interaction은 표준적인 Auto-regressive 방식의 단방향 마스킹 대신, 세그먼트 윈도우 내에서 모든 토큰이 서로를 참조할 수 있게 한다. 이는 이전 세그먼트의 정보를 고정된 상수로 취급하지 않고 현재 생성 맥락에 맞게 재해석하게 함으로써 경계 아티팩트(Boundary Artifacts)를 억제한다. 학습 시에는 Teacher-forcing 기법을 사용하여 실제 비디오의 컨텍스트를 주입함으로써 모델이 짧은 범위의 문맥과 전역 참조를 동시에 활용하도록 유도한다.

관련 Figure

Diagram
시간축에 따른 비디오 블록 처리 방식과 인접 블록 간의 양방향 상호작용 메커니즘을 보여준다. 이를 통해 어떻게 메모리 사용량을 제한하면서 연속성을 확보하는지 설명한다.
Conditional Segment-wise Generation(CSG)의 작동 원리 다이어그램

한계점

SwiftI2V는 2K 비디오 생성의 효율성을 크게 개선했으나 여전히 엄격한 의미의 실시간(Real-time) 합성에는 도달하지 못했다. 또한 두 개의 전문화된 단계를 별도로 운영해야 하므로 단일 모델 대비 시스템 통합 및 메모리 공유 최적화 과정이 복잡할 수 있다.

실무 활용

SwiftI2V는 고성능 인프라 없이도 고해상도 비디오 콘텐츠를 제작할 수 있게 해주는 실무 중심의 프레임워크이다. 특히 스트리밍 생성을 지원하므로 실시간 상호작용이 필요한 서비스나 긴 영상 제작에 적합하다.

단일 소비자용 GPU(RTX 4090) 기반의 개인용 고해상도 영상 제작 도구
입력 이미지의 세부 질감을 그대로 유지해야 하는 패션 및 제품 광고 영상 생성
세그먼트 단위 생성을 활용한 장편 애니메이션 또는 영화 장면의 프로토타이핑
저사양 서버 환경에서의 고품질 비디오 생성 API 서비스 구축

코드 공개 여부: 공개

코드 저장소 보기

키워드

I2V(이미지-비디오 생성)DiT(디퓨전 트랜스포머)CSG(조건부 세그먼트 단위 생성)High-Resolution(고해상도)Efficiency(효율성)

SwiftI2V: 조건부 세그먼트 단위 생성을 통한 효율적인 고해상도 이미지-비디오 생성

TL;DR

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드