핵심 요약
인공지능 생성 콘텐츠(AIGC)는 텍스트-이미지 생성을 넘어 비디오와 오디오를 아우르는 고품질 멀티모달 합성(Multimodal Synthesis)으로 빠르게 확장되고 있습니다. 이러한 맥락에서 오디오-비디오 공동 생성(Joint Audio-Video Generation, JAVG)은 텍스트 설명으로부터 동기화되고 의미적으로 정렬된 소리와 영상을 생성하는 핵심적인 과제로 부상했습니다. 그러나 Veo3와 같은 고급 상용 모델과 비교할 때, 기존의 오픈소스 방법론들은 생성 품질, 시간적 동기화(Temporal Synchrony), 그리고 인간의 선호도와의 정렬 측면에서 여전히 한계를 보이고 있습니다. 이러한 격차를 해소하기 위해 본 논문은 JAVG의 통합 모델링 및 최적화를 위한 간결하면서도 강력한 프레임워크인 JavisDiT++를 제안합니다. 첫째, 모달리티 특화 전문가 혼합(Modality-Specific Mixture-of-Experts, MS-MoE) 설계를 도입하여 단일 모달리티의 생성 품질을 높이는 동시에 교차 모달리티 상호작용의 효율성을 확보했습니다. 둘째, 오디오와 비디오 토큰 간의 명시적인 프레임 단위 동기화를 달성하기 위해 시간 정렬 회전식 위치 임베딩(Temporal-Aligned RoPE, TA-RoPE) 전략을 제안합니다. 또한, 품질, 일관성, 동기화 차원에서 모델 출력을 인간의 선호도에 맞추기 위해 오디오-비디오 직접 선호도 최적화(Audio-Video Direct Preference Optimization, AV-DPO) 방법을 개발했습니다. Wan2.1-1.3B-T2V를 기반으로 구축된 본 모델은 약 100만 개의 공개 학습 데이터만으로도 최첨단(SOTA) 성능을 달성했으며, 정성적 및 정량적 평가 모두에서 이전 방식들을 크게 능가했습니다. 제안된 모듈들의 효과를 검증하기 위해 포괄적인 어블레이션 연구(Ablation Studies)가 수행되었습니다. 모든 코드, 모델 및 데이터셋은 공개되어 있습니다.
핵심 기여
모달리티 특화 전문가 혼합(MS-MoE) 구조
오디오와 비디오 각 모달리티에 최적화된 전문가 층을 별도로 구성하여 개별 모달리티의 생성 품질을 극대화하고 효율적인 교차 모달 상호작용을 지원한다.
시간 정렬 회전식 위치 임베딩(TA-RoPE)
오디오 토큰과 비디오 토큰을 프레임 단위로 명시적으로 정렬하여 영상의 움직임과 소리의 발생 시점 사이의 정밀한 시간적 동기화를 구현한다.
오디오-비디오 직접 선호도 최적화(AV-DPO)
생성된 콘텐츠의 품질, 일관성, 동기화 수준을 인간의 선호도에 맞게 미세 조정하는 새로운 DPO 기법을 적용하여 사용자 만족도를 높인다.
방법론
Wan2.1-1.3B-T2V를 백본 모델로 채택하고 MS-MoE 구조를 통해 모달리티별 학습 효율을 개선했습니다. TA-RoPE를 사용하여 오디오와 비디오의 시간적 위치 정보를 프레임 수준에서 일치시켰으며, AV-DPO 알고리즘을 통해 다중 모달리티 환경에서의 인간 선호도 정렬 학습을 수행했습니다.
주요 결과
약 100만 개의 공개 데이터셋 학습만으로 기존 오픈소스 모델들을 능가하는 최첨단(SOTA) 성능을 기록했습니다. 정량적 평가에서 상용 모델인 Veo3에 근접하는 품질과 동기화 성능을 보여주었으며, 어블레이션 연구를 통해 MS-MoE, TA-RoPE, AV-DPO 각 모듈이 성능 향상에 필수적임을 입증했습니다.
시사점
오디오와 비디오가 완벽하게 결합된 고품질 영상 생성 모델을 오픈소스 생태계에서 구현할 수 있는 기술적 토대를 마련했습니다. 특히 프레임 단위 동기화 기술은 영화 제작, 교육용 콘텐츠 생성 등 정밀한 소리-영상 일치가 요구되는 실무 분야에서 즉각적으로 활용될 수 있습니다.
키워드
섹션별 상세
모달리티 특화 전문가 혼합(MS-MoE) 구조
시간 정렬 회전식 위치 임베딩(TA-RoPE)
오디오-비디오 직접 선호도 최적화(AV-DPO)
AI 요약 · 북마크 · 개인 피드 설정 — 무료