핵심 요약
SkyReels V4는 비디오와 오디오의 공동 생성(joint video audio generation), 인페인팅(inpainting), 그리고 편집(editing)을 위한 통합된 멀티모달 비디오 파운데이션 모델(unified multi modal video foundation model)입니다. 이 모델은 이중 스트림 멀티모달 확산 트랜스포머(dual stream Multimodal Diffusion Transformer, MMDiT) 아키텍처를 채택하고 있으며, 한 분기(branch)는 비디오를 합성하고 다른 분기는 시간에 맞춰 정렬된 오디오를 생성하는 동시에, 멀티모달 대형 언어 모델(Multimodal Large Language Models, MMLM) 기반의 강력한 텍스트 인코더를 공유합니다. SkyReels V4는 텍스트, 이미지, 비디오 클립, 마스크, 오디오 참조를 포함한 풍부한 멀티모달 지시사항(rich multi modal instructions)을 수용합니다. MMLM의 멀티모달 지시 수행 능력과 비디오 분기 MMDiT의 인컨텍스트 학습(in context learning)을 결합함으로써, 모델은 복잡한 조건 하에서도 세밀한 시각적 가이드를 주입할 수 있으며, 오디오 분기 MMDiT는 동시에 오디오 참조를 활용하여 소리 생성을 안내합니다. 비디오 측면에서는 이미지-비디오 변환, 비디오 확장, 비디오 편집과 같은 광범위한 인페인팅 스타일의 작업을 단일 인터페이스로 통합하는 채널 결합 방식(channel concatenation formulation)을 채택하고 있으며, 멀티모달 프롬프트를 통해 시각 참조 기반의 인페인팅 및 편집으로 자연스럽게 확장됩니다. SkyReels V4는 최대 1080p 해상도, 32 FPS, 15초 길이를 지원하여 동기화된 오디오와 함께 고충실도의 멀티샷 시네마급 비디오 생성을 가능하게 합니다. 이러한 고해상도, 장시간 생성을 계산적으로 가능하게 하기 위해, 저해상도 전체 시퀀스와 고해상도 키프레임의 공동 생성 후 전용 초해상도(super-resolution) 및 프레임 보간(frame interpolation) 모델을 사용하는 효율성 전략을 도입했습니다. 저자들이 알기로는, SkyReels V4는 멀티모달 입력, 비디오-오디오 공동 생성, 그리고 생성·인페인팅·편집의 통합 처리를 동시에 지원하면서 시네마급 해상도와 길이에서 강력한 효율성과 품질을 유지하는 최초의 비디오 파운데이션 모델입니다.
핵심 기여
통합 멀티모달 비디오-오디오 생성 프레임워크
비디오와 오디오 생성을 동시에 수행하며 인페인팅 및 편집 기능까지 하나의 모델로 통합하여 시네마급 품질의 콘텐츠 제작을 지원함.
듀얼 스트림 MMDiT 아키텍처 도입
비디오와 오디오 합성을 위한 전용 분기를 운영하면서도 MMLM 기반의 공유 텍스트 인코더를 통해 정교한 멀티모달 지시 수행 능력을 확보함.
채널 결합 방식의 작업 통합
이미지-비디오 변환, 비디오 확장, 편집 등 다양한 작업을 채널 결합(Channel Concatenation) 수식으로 단일 인터페이스 내에서 처리함.
고해상도 장시간 생성을 위한 효율적 파이프라인
저해상도 전체 시퀀스와 고해상도 키프레임을 먼저 생성한 뒤 초해상도 및 프레임 보간 모델을 적용하여 1080p, 15초 분량의 영상을 효율적으로 생성함.
방법론
듀얼 스트림 멀티모달 확산 트랜스포머(MMDiT) 구조를 기반으로 하며, 비디오와 오디오 생성을 위한 각각의 분기가 MMLM 기반 텍스트 인코더를 공유한다. 비디오 분기에서는 인컨텍스트 학습(In-context Learning)과 채널 결합(Channel Concatenation) 방식을 사용하여 다양한 편집 및 인페인팅 작업을 수행하고, 오디오 분기는 참조 오디오를 통해 가이드된 소리를 생성한다.
주요 결과
최대 1080p 해상도, 초당 32프레임(FPS), 15초 길이의 고충실도 비디오 생성을 지원하며, 비디오와 완벽하게 동기화된 오디오를 동시에 출력한다. 저해상도 시퀀스와 고해상도 키프레임의 공동 생성 전략을 통해 계산 비용을 최적화하면서도 시네마급 품질을 유지하는 성능을 기록했다.
시사점
비디오 제작 워크플로우에서 영상과 음향을 별도로 작업하던 기존 방식에서 벗어나, 통합된 모델로 고품질의 시네마틱 콘텐츠를 한 번에 생성할 수 있게 된다. 특히 텍스트뿐만 아니라 이미지, 마스크, 오디오 등 다양한 입력을 지원하므로 정교한 비디오 편집 및 특수 효과 작업의 효율성이 크게 향상된다.
키워드
섹션별 상세
통합 멀티모달 비디오-오디오 생성 프레임워크
듀얼 스트림 MMDiT 아키텍처 도입
채널 결합 방식의 작업 통합
고해상도 장시간 생성을 위한 효율적 파이프라인
AI 요약 · 북마크 · 개인 피드 설정 — 무료