핵심 요약
기존 오픈소스 모델들은 영상과 소리의 싱크가 맞지 않거나 품질이 떨어지는 한계가 있었습니다. 이 논문은 효율적인 전문가 혼합 구조와 정밀한 시간축 정렬 기법을 통해, 적은 연산 비용으로도 영상 속 동작과 소리가 완벽하게 일치하는 고품질 콘텐츠 생성을 가능하게 하여 멀티모달 AI의 실용성을 높였습니다.
왜 중요한가
기존 오픈소스 모델들은 영상과 소리의 싱크가 맞지 않거나 품질이 떨어지는 한계가 있었습니다. 이 논문은 효율적인 전문가 혼합 구조와 정밀한 시간축 정렬 기법을 통해, 적은 연산 비용으로도 영상 속 동작과 소리가 완벽하게 일치하는 고품질 콘텐츠 생성을 가능하게 하여 멀티모달 AI의 실용성을 높였습니다.
핵심 기여
MS-MoE 아키텍처 도입
오디오와 비디오 토큰이 Self-Attention 레이어를 공유하여 상호작용하면서도, 각 모달리티 전용 FFN 전문가를 거치게 설계하여 단일 모달리티 품질과 교차 모달리티 효율을 동시에 확보했다.
TA-RoPE를 통한 정밀 동기화
오디오와 비디오 토큰의 위치 ID를 통합된 시간축에 정렬하는 Temporal-Aligned RoPE 전략을 제안하여, 프레임 단위의 명시적인 오디오-비디오 동기화를 달성했다.
AV-DPO 최적화 알고리즘 제안
오디오-비디오 동시 생성 분야 최초로 직접 선호도 최적화(DPO)를 도입하여, 생성된 결과물이 인간의 시청각적 선호도와 일치하도록 모델을 정렬했다.
효율적인 학습 및 SOTA 달성
Wan2.1-1.3B 기반으로 단 100만 개의 공개 데이터만을 사용하여 JavisBench에서 기존 모델들을 압도하는 최고 성능을 기록했다.
핵심 아이디어 이해하기
기존의 비디오 생성 모델은 영상 생성 후 소리를 덧붙이거나 별도의 모델을 연결하는 방식을 사용해 영상 속 동작과 소리가 따로 노는 문제가 잦았다. JavisDiT++는 오디오와 비디오를 하나의 Transformer 아키텍처 내에서 동시에 처리하는 통합 모델링을 지향한다. 이때 핵심은 Attention 레이어에서 두 정보를 섞되, 실제 특징을 추출하는 FFN 단계에서는 오디오와 비디오 전문가를 따로 두어 서로의 정보가 간섭되지 않게 격리하는 것이다.
또한, 영상의 프레임 번호와 소리의 시간 정보를 동일한 수학적 좌표계(TA-RoPE) 위에 배치한다. 이는 모델이 특정 영상 프레임과 특정 시점의 소리가 같은 시간대에 존재함을 명확히 인지하게 만든다. 결과적으로 별도의 복잡한 후처리 없이도 영상 속 물체의 움직임에 맞춰 정확한 소리가 발생하는 자연스러운 동기화가 가능해진다.
이러한 구조적 개선에 더해, 인간이 보기에 더 자연스러운 영상-소리 조합을 선택하도록 학습시키는 AV-DPO 과정을 거친다. 이는 모델이 단순히 데이터를 복제하는 수준을 넘어, 시각적 사건과 청각적 사건 사이의 조화로운 연결을 학습하게 함으로써 전체적인 완성도를 상용 모델 수준으로 끌어올린다.
방법론
Flow Matching 기반의 통합 DiT 아키텍처를 채택했다. 비디오 토큰 와 오디오 토큰 를 결합한 후 Rectified Flow 목적 함수를 통해 노이즈에서 데이터를 복원하는 속도 필드 를 학습한다. [노이즈 과 데이터 를 입력으로] [선형 보간을 통해 경로를 생성하고 속도 벡터 를 계산해] [모델 가 이 속도를 예측하도록 학습하여] [노이즈에서 데이터로 가는 최단 경로를 모델링한다].
MS-MoE(Modality-Specific Mixture-of-Experts) 구조는 공유 Self-Attention 레이어 이후에 모달리티별 독립적인 FFN을 배치한다. 토큰 가 입력될 때 모달리티 타입에 따라 또는 로 결정론적으로 할당되어 연산된다. 이는 파라미터 수는 늘리되 토큰당 활성화 파라미터는 유지하여 추론 효율을 보존한다.
TA-RoPE(Temporal-Aligned RoPE)는 3D 위치 ID 를 오디오에도 확장 적용한다. 오디오 토큰의 시간 인덱스 를 비디오 프레임 수 와 오디오 단계 수 의 비율에 맞춰 정렬한다. [오디오 타임스탬프 를 입력으로] [비디오 프레임 비율에 맞춰 스케일링하고 정수 반올림 연산을 수행해] [비디오와 동일한 시간축 ID를 얻고] [두 모달리티가 동일한 시간 선상에 있음을 모델에 전달한다].
AV-DPO는 수집된 선호도 데이터 를 바탕으로 정책 모델을 최적화한다. 오디오/비디오 각각의 보상 점수 차이를 계산하고, 이를 결합한 손실 함수 를 최소화하여 인간이 선호하는 고품질의 동기화된 출력을 유도한다.
주요 결과
JavisBench 벤치마크 실험 결과, FVD 141.5, FAD 5.5를 기록하며 기존 SOTA 모델인 UniVerse-1(FVD 194.2, FAD 8.7)을 큰 차이로 앞질렀다. 특히 텍스트 일관성과 오디오-비디오 동기화 지표인 JavisScore에서 0.159를 기록하며 가장 우수한 성능을 보였다.
Ablation Study를 통해 MS-MoE 설계가 단순한 LoRA나 전체 파인튜닝보다 비디오 품질 보존과 오디오 품질 향상 사이의 균형을 효과적으로 잡는다는 것을 확인했다. TA-RoPE는 추가적인 추론 지연 시간 없이도 동기화 성능을 기존 대비 약 7.7% 향상시켰다.
인간 평가(Human Evaluation) 결과, JavisDiT++는 JavisDiT 및 UniVerse-1 대비 70% 이상의 승률을 기록했다. 이는 모델이 생성한 영상과 소리의 조화가 실제 사용자가 느끼기에 훨씬 자연스럽고 고품질임을 입증한다.
기술 상세
모델은 Wan2.1-1.3B-T2V를 백본으로 하며, 30개의 레이어와 1536의 은닉 차원을 가진다. 비디오 VAE는 Wan2.1의 것을, 오디오 VAE는 AudioLDM2의 것을 동결하여 사용하며, 텍스트 엔코더로는 umT5-xxl을 활용한다.
학습 과정은 3단계 파이프라인으로 구성된다. 1단계는 780K 오디오-텍스트 쌍을 이용한 오디오 사전 학습, 2단계는 330K 오디오-비디오-텍스트 트리플렛을 이용한 SFT, 3단계는 25K 선호도 쌍을 이용한 AV-DPO이다. 최종 모델은 LoRA 컴포넌트를 병합한 후 약 2.1B의 파라미터를 가진다.
MS-MoE는 기존의 동적 라우팅 MoE와 달리 모달리티에 따라 전문가를 고정 할당하는 결정론적 방식을 취한다. 이를 통해 모달리티 간 간섭을 격리하면서도 Self-Attention을 통한 교차 모달리티 상호작용은 유지하여 학습 효율을 극대화했다.
TA-RoPE 구현 시 오디오 토큰을 2D 이미지처럼 취급하여 멜-스펙트로그램의 주파수와 시간 차원을 비디오의 공간 차원에 매핑한다. 이때 정수 위치 ID를 유지하는 것이 오디오 품질 보존에 필수적임을 실험적으로 증명했으며, 공간축 오프셋을 통해 위치 ID 중첩을 방지했다.
한계점
학습 데이터 규모가 약 100만 개로 제한적이라 대규모 상용 모델에 비해 일반화 능력이 부족할 수 있다. 또한 현재는 일반적인 텍스트-오디오-비디오 생성에 집중하고 있어, 음악의 리듬이나 특정 음색에 대한 미세한 제어 능력은 향후 연구 과제로 남아있다.
실무 활용
고품질의 소리가 포함된 짧은 영상을 생성해야 하는 콘텐츠 제작 및 엔터테인먼트 분야에서 즉시 활용 가능하다.
- 숏폼 비디오 및 소셜 미디어 콘텐츠 자동 생성
- 영화 및 애니메이션 제작을 위한 효과음 동기화 가이드 제작
- 게임 개발 시 텍스트 프롬프트를 활용한 멀티모달 에셋 프로토타이핑
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.