왜 중요한가
기존의 오디오-비디오 생성 모델은 비디오와 오디오를 별도의 경로로 처리하는 복잡한 다중 스트림 구조를 사용하여 최적화와 동기화가 어려웠다. 이 논문은 텍스트, 비디오, 오디오를 하나의 시퀀스로 통합 처리하는 단일 스트림 아키텍처를 통해 구조를 단순화하면서도 강력한 성능과 빠른 추론 속도를 동시에 달성했다. 특히 한국어를 포함한 다국어 지원과 인간 중심의 정교한 움직임 구현이 가능해 실시간 상호작용형 AI 콘텐츠 제작의 가능성을 열었다.
핵심 기여
통합 단일 스트림 Transformer 아키텍처
텍스트, 비디오, 오디오 토큰을 하나의 시퀀스로 묶어 공유 가중치 백본에서 처리함으로써 다중 스트림 모델의 복잡성을 제거하고 학습 및 추론 효율성을 극대화했다.
인간 중심 생성 품질 최적화
표정 연기, 음성과 입모양의 일치, 자연스러운 신체 움직임 등 인간 중심 시나리오에서 뛰어난 성능을 보이며 오디오-비디오 간 정밀한 동기화를 구현했다.
효율적인 추론 파이프라인 구축
모델 증류, 잠재 공간 초해상도, Turbo VAE 디코더를 결합하여 H100 GPU 1개로 256p 비디오를 2초 만에 생성하는 속도를 확보했다.
다국어 음성 생성 지원
한국어, 중국어, 영어, 일본어, 독일어, 프랑스어 등 다양한 언어에 대해 자연스러운 음성 및 비디오 생성을 지원하며 높은 음성 명료도를 달성했다.
핵심 아이디어 이해하기
기존 비디오 생성 모델은 비디오와 오디오의 데이터 특성이 다르기 때문에 각각 별도의 신경망으로 처리한 뒤 나중에 합치는 방식을 주로 사용했다. 이 방식은 두 매체 간의 정밀한 동기화를 맞추기 위해 복잡한 Cross-Attention 레이어를 추가해야 하며, 이는 연산 비용 증가와 구현의 어려움을 초래한다. daVinci-MagiHuman은 모든 데이터를 '토큰'이라는 공통 언어로 변환하여 하나의 긴 줄(Single-stream)로 세운 뒤, 단일 Transformer 모델이 이를 한꺼번에 처리하도록 설계했다.
비디오 프레임과 오디오 파형을 각각의 인코더로 압축해 토큰화한 뒤 텍스트 토큰과 함께 배치함으로써, 모델이 Self-Attention 과정에서 자연스럽게 비디오와 오디오의 상관관계를 학습하게 유도한다. 이러한 단순화는 단순히 구조적 이점을 넘어 추론 속도의 비약적인 향상을 가져온다. 별도의 동기화 모듈 없이도 입모양과 음성이 일치하는 립싱크 성능이 향상되었으며, 표준적인 학습 인프라를 그대로 활용할 수 있어 최적화가 용이해졌다. 결과적으로 복잡한 기교 없이도 더 빠르고 정확한 멀티모달 생성이 가능해진 것이다.
방법론
15B 파라미터 규모의 40레이어 Transformer 백본을 사용한다. 아키텍처는 '샌드위치(Sandwich)' 구조로, 처음과 마지막 4개 레이어는 각 모달리티(텍스트, 비디오, 오디오)에 특화된 프로젝션과 RMSNorm을 사용하고 중간 32개 레이어는 모든 모달리티가 가중치를 공유하며 깊은 수준의 융합을 수행한다.
확산 모델의 타임스텝 정보를 주입할 때 별도의 임베딩 레이어를 쓰지 않는 'Timestep-Free Denoising' 방식을 채택했다. 모델은 현재 노이즈가 섞인 비디오/오디오 잠재값을 입력받아 직접 노이즈 제거 상태를 추론한다. 또한 각 Attention 헤드에 스칼라 게이트를 추가한 'Per-Head Gating'을 도입했다. [Attention 출력값 와 학습된 게이트 값 가 주어질 때] → [ 연산을 수행하여] → [게이트된 출력값을 얻으며] → [이는 수치적 안정성을 높이고 표현력을 강화하는 의미를 갖는다].
추론 효율화를 위해 2단계 파이프라인을 운영한다. 먼저 베이스 모델이 저해상도(256p) 잠재값을 생성한 뒤, 잠재 공간 초해상도(Latent-space SR) 모델이 이를 고해상도로 정제한다. 이때 픽셀 공간이 아닌 잠재 공간에서 5단계의 노이즈 제거만 수행하여 연산량을 대폭 줄였다. 마지막으로 Turbo VAE 디코더를 통해 잠재값을 실제 비디오로 복원한다.
주요 결과
자동 평가 지표에서 daVinci-MagiHuman은 시각적 품질(4.80)과 텍스트 정렬(4.18) 점수에서 Ovi 1.1 및 LTX 2.3 등 기존 오픈소스 모델을 앞질렀다. 특히 음성 명료도를 측정하는 WER(단어 오류율)에서 14.60%를 기록하여 Ovi 1.1(40.45%) 대비 압도적인 성능 향상을 보였다.
인간 평가 결과, Ovi 1.1과의 비교에서 80.0%의 승률을 기록했으며 LTX 2.3과의 비교에서도 60.9%의 승률을 달성했다. 이는 사용자들이 이 모델이 생성한 비디오의 자연스러움과 오디오-비디오 동기화 수준을 더 높게 평가함을 의미한다.
추론 속도 측면에서 H100 GPU 1개를 사용하여 5초 분량의 256p 비디오를 2.0초 만에 생성했다. 고해상도인 1080p 비디오의 경우에도 초해상도 단계를 포함하여 총 38.4초가 소요되어 실무적인 활용 가치를 입증했다.
실무 활용
빠른 생성 속도와 높은 동기화 품질 덕분에 실시간성이 중요한 인터랙티브 콘텐츠 제작에 즉시 투입 가능하다. 특히 한국어를 포함한 다국어 지원으로 글로벌 마케팅 영상이나 교육용 콘텐츠 제작 효율을 높일 수 있다.
- AI 가상 인간을 활용한 다국어 뉴스 및 교육 영상 제작
- 실시간 대화형 AI 아바타 서비스 구축
- 텍스트 기반의 고품질 숏폼 비디오 및 오디오 동시 생성
- 기존 저해상도 비디오의 오디오 동기화 및 고해상도 업스케일링
기술 상세
모델 아키텍처는 15B 파라미터의 Transformer로, 텍스트, 비디오, 오디오를 통합된 토큰 시퀀스로 처리하는 Single-stream 방식을 취한다. 이는 Cross-attention을 사용하는 Multi-stream 방식보다 구현이 단순하며 하드웨어 가속기 최적화에 유리하다.
Sandwich Layout 전략을 통해 입력과 출력 경계 부근에서는 모달리티별 특성을 보존하고, 중간 레이어에서는 공통 표현 공간에서의 깊은 멀티모달 융합을 유도한다. 이는 이질적인 데이터 타입 간의 의미론적 정렬을 돕는다.
Timestep 임베딩을 제거하고 입력 데이터로부터 직접 노이즈 상태를 파악하게 함으로써 아키텍처 오버헤드를 줄였다. 또한 Per-Head Gating 기법을 통해 대규모 모델 학습 시의 수치적 불안정성을 해결하고 특정 모달리티에 대한 Attention 집중도를 동적으로 조절한다.
추론 최적화를 위해 DMD-2 증류 기법을 적용하여 CFG 없이 단 8단계의 노이즈 제거만으로 고품질 생성을 가능하게 했다. 또한 MagiCompiler를 통한 연산자 융합으로 H100에서 약 1.2배의 추가 속도 향상을 얻었다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.