SkyReels-V4: 멀티모달 비디오-오디오 생성, 인페인팅 및 편집 모델

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

비디오와 오디오를 별도로 생성할 때 발생하는 싱크 불일치 문제를 해결하고, 생성부터 정교한 편집까지 하나의 모델로 처리할 수 있는 통합 환경을 제공합니다. 1080p 고해상도와 15초 이상의 긴 분량을 효율적으로 생성할 수 있어 실제 영상 제작 현장에서의 활용도가 매우 높습니다.

왜 중요한가

핵심 기여

듀얼 스트림 MMDiT 기반의 비디오-오디오 공동 생성 아키텍처

비디오와 오디오를 각각 담당하는 두 개의 브랜치가 병렬로 동작하며, 상호 교차 어텐션을 통해 시각적 움직임과 소리의 완벽한 시간적 동기화를 구현함.

채널 결합을 통한 생성·인페인팅·편집 작업의 통합

비디오 생성, 확장, 편집 작업을 '인페인팅'이라는 단일 인터페이스로 통합하여, 마스크 설정만으로 객체 제거, 배경 교체, 스타일 변환 등 다양한 편집 기능을 제공함.

저해상도 시퀀스와 고해상도 키프레임을 결합한 효율적 생성 전략

연산 효율성을 위해 전체 흐름은 저해상도로, 핵심 장면은 고해상도로 먼저 생성한 뒤 초해상도 및 프레임 보간 모델을 거쳐 1080p 고화질 영상을 빠르게 생성함.

MLLM을 활용한 고차원적 멀티모달 지시문 이행 능력 확보

텍스트뿐만 아니라 이미지, 비디오 클립, 오디오 참조 등 다양한 입력을 동시에 이해하여 복잡한 시나리오의 비디오 생성을 가능하게 함.

핵심 아이디어 이해하기

기존 비디오 생성 모델은 주로 시각적 요소에 집중하며, 오디오는 별도의 모델로 생성한 뒤 사후에 결합하는 방식을 취했다. 이로 인해 인물의 입 모양과 목소리가 맞지 않거나, 폭발 장면과 소리의 시점이 어긋나는 등 시간적 동기화 문제가 빈번하게 발생했다. 또한 고해상도 영상을 길게 생성하려면 연산 자원이 기하급수적으로 필요해 실무 적용에 한계가 있었다.

SkyReels-V4는 비디오와 오디오를 동시에 처리하는 듀얼 스트림 MMDiT 구조를 통해 이 문제를 해결한다. 두 모달리티가 각자의 경로로 흐르면서도 중간 레이어에서 양방향 교차 어텐션을 수행하여, 시각적 특징이 오디오 생성에 직접적인 가이드라인을 제공하고 반대로 오디오가 영상의 리듬을 조절하도록 설계했다.

특히 모든 편집 기능을 '인페인팅'이라는 하나의 원리로 통일했다. 영상의 특정 부분을 마스킹하고 새로운 조건(텍스트나 이미지)을 주면 모델이 그 빈칸을 채우는 방식인데, 이를 통해 객체 제거부터 배경 교체, 스타일 변환까지 복잡한 작업을 하나의 인터페이스에서 수행할 수 있게 되었다.

방법론

하이브리드 MMDiT 블록 설계. 초기 레이어에서는 비디오와 오디오가 독립적인 파라미터를 사용하는 Dual-Stream 구조를 취해 각 모달리티의 고유한 특징을 추출하고, 이후 레이어에서는 파라미터를 공유하는 Single-Stream 구조로 전환하여 멀티모달 융합 효율을 극대화함.

양방향 오디오-비디오 교차 어텐션 메커니즘. 각 트랜스포머 블록 내에 오디오 스트림이 비디오 특징을 참조하고 비디오 스트림이 오디오 특징을 참조하는 레이어를 배치함. [오디오/비디오 래턴트 입력 → 상호 교차 어텐션 수행 → 동기화된 특징 출력] 과정을 통해 시각적 사건과 소리의 발생 시점을 정밀하게 일치시킴.

채널 결합 기반 통합 프레임워크. 입력 텐서를 Z_input = Concat(V, I, M) 형태로 구성함. [노이즈 비디오 V, 조건부 프레임 I, 이진 마스크 M을 채널 축으로 결합 → 모델 입력 → 마스크 영역의 픽셀 값 예측] 순서로 연산하며, 마스크 설정에 따라 텍스트-비디오 생성(M=0), 이미지-비디오 변환(첫 프레임 M=1), 비디오 편집(특정 영역 M=1)을 유연하게 처리함.

고해상도 생성을 위한 Refiner 전략. 기본 모델이 저해상도 전체 시퀀스와 고해상도 키프레임을 생성하면, Refiner 모델이 이를 입력받아 Video Sparse Attention(VSA)을 적용함. [저해상도 래턴트 보간 → 고해상도 키프레임 정보 주입 → VSA 기반 세부 묘사 복원] 과정을 통해 1080p 고화질 영상을 생성함.

주요 결과

Artificial Analysis Arena의 텍스트-비디오 오디오 통합 생성 트랙에서 Elo 점수 1,090점을 획득하며 전체 2위에 랭크됨. 이는 Kling 3.0, Veo 3.1, Sora 2 등 현존하는 최상위 상용 모델들과 대등한 성능임을 입증함.

자체 구축한 SkyReels-VABench(2,000개 이상의 멀티모달 프롬프트) 평가 결과, 지시문 이행(Prompt Following)과 움직임 품질(Motion Quality)에서 경쟁 모델 대비 유의미한 우위를 점함. 특히 여러 컷으로 구성된 복잡한 서사 구조를 일관성 있게 생성하는 능력이 탁월함이 확인됨.

효율성 분석 결과, Video Sparse Attention(VSA) 도입을 통해 전체 연산 비용을 약 3배 절감함. 이를 통해 1080p, 32 FPS, 15초 분량의 고품질 영상을 실무에서 수용 가능한 속도로 생성할 수 있는 기반을 마련함.

기술 상세

아키텍처는 초기 M개의 Dual-Stream 레이어와 이후 N개의 Single-Stream 레이어로 구성됨. Dual-Stream에서는 비디오/오디오와 텍스트 토큰이 독립적인 파라미터로 상호작용하며, Single-Stream에서는 공유 파라미터를 통해 연산 효율을 높이면서도 강력한 모달리티 정렬을 수행함.

시간적 정렬을 위한 RoPE(Rotary Positional Embeddings) 스케일링 기법을 적용함. 비디오 래턴트(21프레임)와 오디오 래턴트(218토큰)의 해상도 차이를 해결하기 위해 오디오 RoPE 주파수에 21/218 비율을 곱하여, 서로 다른 수의 토큰들이 동일한 시간적 위치에서 서로를 참조할 수 있도록 설계함.

멀티모달 지시문 처리를 위해 동결된 MLLM(Multimodal Large Language Model)을 텍스트 인코더로 활용함. 텍스트 프롬프트와 이미지/비디오 참조물을 하나의 시퀀스로 결합하여 MLLM에 입력함으로써, '이미지 1의 인물이 비디오 1의 춤을 추게 하라'와 같은 복잡한 관계형 지시를 정확히 이해함.

학습 프로세스는 6단계의 점진적 비디오 사전 학습을 포함함. 256px 해상도의 이미지-텍스트 학습부터 시작하여 점진적으로 해상도와 프레임 수를 늘려가며 1080p 고해상도 학습에 도달하며, 마지막 단계에서는 500만 개의 비디오-오디오 쌍 데이터를 활용해 최종적인 동기화 성능을 확보함.

실무 활용

비디오와 오디오가 완벽히 결합된 고품질 콘텐츠를 생성하고, 기존 영상의 특정 요소를 정교하게 수정할 수 있는 통합 솔루션입니다. 영화 제작, 광고, 소셜 미디어 콘텐츠 제작 등 전문적인 영상 편집 워크플로우에 즉시 도입 가능합니다.

텍스트 및 이미지 기반의 고해상도 비디오-오디오 동기 생성
영상 내 특정 인물/사물 제거 및 배경 교체(Inpainting)
기존 영상의 스타일 변환 및 카메라 무브먼트 제어(Editing)
참조 이미지를 활용한 캐릭터 일관성 유지 및 모션 전이
오디오 참조를 통한 맞춤형 효과음 및 대사 생성

코드 공개 여부: 비공개

키워드

MMDiT(멀티모달 확산 트랜스포머)Joint Generation(공동 생성)Video Inpainting(비디오 인페인팅)MLLM(멀티모달 대형 언어 모델)Video-Audio Synchronization(비디오-오디오 동기화)