핵심 요약
기존의 스트리밍 비디오 생성은 복잡한 증류 과정과 긴 추론 시간이 필요했으나, 이 논문은 단일 모델 내에서 고속 생성과 고품질 학습을 동시에 해결하는 Mutual Forcing 기법을 제시한다. 이를 통해 별도의 교사 모델 없이도 50단계가 필요한 기존 방식보다 최대 10배 빠른 속도로 입모양과 소리가 일치하는 영상을 생성할 수 있다.
왜 중요한가
기존의 스트리밍 비디오 생성은 복잡한 증류 과정과 긴 추론 시간이 필요했으나, 이 논문은 단일 모델 내에서 고속 생성과 고품질 학습을 동시에 해결하는 Mutual Forcing 기법을 제시한다. 이를 통해 별도의 교사 모델 없이도 50단계가 필요한 기존 방식보다 최대 10배 빠른 속도로 입모양과 소리가 일치하는 영상을 생성할 수 있다.
핵심 기여
Mutual Forcing 프레임워크 도입
단일 가중치 공유 모델 내에서 Few-step(고속) 모드와 Multi-step(고품질) 모드를 통합하여 외부 교사 모델 없이 자기 진화가 가능한 구조를 설계했다.
이중 모드 자기 진화 전략
Multi-step 모드는 Few-step 모드가 생성한 이력을 바탕으로 학습하여 추론 시의 오차 누적을 방지하고, Few-step 모드는 Multi-step 모드의 결과물을 증류받아 속도를 개선하는 상호 보완적 학습 체계를 구축했다.
2단계 학습 레시피 제안
오디오와 비디오 생성기를 각각 독립적으로 사전 학습한 후, 결합된 Self-Attention 층을 통해 동기화를 미세 조정하는 효율적인 최적화 경로를 제시했다.
스트리밍 텍스트 제어 메커니즘
전체 장면을 설명하는 글로벌 캡션과 시간에 따른 음성 내용을 제어하는 ASR 토큰을 결합하여 실시간 대화 영상 생성에 최적화된 제어 방식을 도입했다.
핵심 아이디어 이해하기
기존의 자기회귀(Autoregressive) 생성 모델은 학습 시에는 실제 정답 데이터를 입력받지만, 추론 시에는 자신이 생성한 데이터를 다시 입력으로 사용하는 '노출 편향(Exposure Bias)' 문제를 겪는다. 이로 인해 영상이 길어질수록 품질이 급격히 저하되거나 오디오와의 동기화가 깨지는 현상이 발생한다. Transformer 기반의 시퀀스 생성에서 이전 토큰의 작은 오차가 다음 토큰 생성 시 증폭되는 원리와 같다.
Mutual Forcing은 이를 해결하기 위해 모델 내부에 두 개의 가상 모드를 둔다. Multi-step 모드는 고품질의 정답을 생성하는 역할을 하며, Few-step 모드는 실제 추론 환경처럼 빠르게 데이터를 생성한다. 학습 과정에서 Multi-step 모드는 Few-step 모드가 생성한 '불완전한 과거 이력'을 입력받아 다음 프레임을 예측하도록 훈련된다. 이는 모델이 스스로 만든 오류에 적응하도록 강제하여 추론 시의 일관성을 비약적으로 높인다.
결과적으로 모델은 별도의 거대한 교사 모델(Teacher Model)을 참조하지 않고도, 자신의 두 모드가 서로의 단점을 보완하며 성능을 끌어올린다. 이는 가중치를 공유하는 단일 네트워크 내에서 이루어지므로 메모리 효율성이 높으며, 학습 데이터의 실제 분포를 더 정확하게 반영하게 된다.
관련 Figure

기존의 Teacher Forcing이나 Self-Forcing과 달리, Mutual Forcing은 별도의 외부 교사 모델 없이 단일 모델 내의 이중 모드(Dual Mode)를 통해 학습과 추론의 일관성을 맞추는 구조를 보여준다. 이를 통해 유연한 학습 길이와 교사 모델 없는 최적화가 가능함을 시각화했다.
기존 학습 패러다임과 Mutual Forcing의 비교 다이어그램
방법론
전체 시스템은 오디오와 비디오를 동시에 처리하는 Dual-branch Transformer 아키텍처를 기반으로 한다. 각 브랜치는 독립적인 VAE(Variational Autoencoder)를 통해 압축된 잠재 공간(Latent Space)에서 작동하며, 두 모달리티의 토큰은 공유된 Self-Attention 층에서 서로를 참조하여 동기화된다.
핵심 알고리즘인 Mutual Forcing은 Flow Matching 손실 함수를 사용한다. Multi-step 모드 학습 시에는 [Few-step 모드가 생성한 이전 프레임들 → Multi-step 연산 → 다음 프레임의 속도 벡터(Velocity Field)] 과정을 거쳐 실제 데이터와의 차이를 줄인다. 이는 모델이 자가 생성된 컨텍스트에서도 정확한 분포를 찾도록 유도한다.
Few-step 모드 학습은 증류(Distillation) 방식을 취한다. [현재 상태와 시간 간격 입력 → Few-step 연산 → 큰 보폭의 업데이트 값]을 계산한 뒤, 이를 Multi-step 모드가 예측한 궤적과 일치시킨다. 이때 DMD(Distribution Matching Distillation)와 ShortCut 손실을 혼합하여 적은 단계(4~8단계)만으로도 고품질의 샘플링이 가능하도록 최적화했다.
관련 Figure

가중치를 공유하는 Few-step 모드와 Multi-step 모드가 어떻게 상호 작용하며 학습되는지 상세히 나타낸다. 오른쪽 아키텍처는 오디오와 비디오 토큰이 결합된 Self-Attention 층을 통해 교차 모달리티 상호작용을 수행하는 방식을 설명한다.
Mutual Forcing의 전체 파이프라인 및 아키텍처 구조
주요 결과
실험 결과, Mutual Forcing은 단 48회의 네트워크 실행(NFE)만으로도 50100회의 실행이 필요한 기존의 확산 모델 기반 베이스라인(Universe-1, Ovi)과 대등하거나 우수한 성능을 보였다. 특히 입모양 동기화 지표인 LSE-C에서 8단계 실행 시 6.35를 기록하여 100단계 실행 모델인 Ovi(6.19)를 앞질렀다.
장기 생성 안정성 측면에서도 우수함이 증명됐다. 15~25초 구간의 긴 영상 생성 시, 기존 방식들은 오디오 품질(CE)과 비디오 일관성(ID)이 급격히 하락했으나, Mutual Forcing은 초기 품질을 거의 그대로 유지했다. 이는 자기 진화 전략이 추론 시의 오차 누적을 효과적으로 억제했음을 의미한다.
추론 속도 면에서는 단일 GPU(RTX 4090급)에서 192x336 해상도 기준 초당 30프레임(30 FPS) 생성을 달성하여 실시간 스트리밍이 가능한 수준의 효율성을 입증했다. 이는 다중 GPU를 사용해야 했던 기존 모델들보다 월등히 적은 자원으로 구현 가능하다.
기술 상세
모델은 총 14B 파라미터 규모로, 오디오와 비디오 브랜치 각각 7B의 Transformer 구조를 가진다. 비디오 인코딩에는 Wan2.2 VAE를, 오디오에는 Stable Audio 2.0 VAE를 사용했다. 다중 모달리티의 위치 정보를 정렬하기 위해 시간, 높이, 너비를 분해하여 인코딩하는 3D RoPE(Rotary Positional Embedding)를 도입했다.
학습 전략은 2단계로 나뉜다. 1단계에서는 오디오와 비디오 브랜치를 독립적으로 사전 학습하여 강력한 단일 모달리티 프라이어를 확보한다. 2단계에서는 쌍으로 구성된 데이터를 사용하여 전체 모델을 미세 조정하며, 이때 Mutual Forcing 손실 함수를 적용해 동기화와 생성 속도를 동시에 최적화한다.
자기 진화 루프는 정지 그래디언트(Stop-gradient)를 활용한 폐쇄 루프 구조다. Multi-step 모드가 개선되면 Few-step 모드에 더 정확한 타겟을 제공하고, Few-step 모드가 생성한 데이터는 다시 Multi-step 모드의 견고한 학습 컨텍스트가 된다. 이러한 상호 작용은 외부 데이터나 교사 모델 없이도 모델의 한계를 스스로 돌파하게 만든다.
관련 Figure

가중치 공유를 통해 두 모드 간의 어텐션 맵 유사도가 97% 이상임을 보여주며, 이는 두 모드가 내부적으로 동일한 역학을 공유함을 입증한다. 또한 기존 방식보다 더 균형 잡힌 시간적 어텐션 분포를 가져 장기 생성 시 오류 누적을 방지함을 나타낸다.
어텐션 일관성 및 시간적 어텐션 할당 분석 그래프
한계점
현재 연구는 데이터 커버리지의 한계로 인해 다자간 대화나 1인칭 시점(Egocentric) 영상과 같은 복잡한 시나리오에서는 성능이 저하될 수 있다. 또한 고속 생성을 달성했음에도 불구하고, 아주 높은 해상도의 영상을 실시간으로 생성하는 데에는 여전히 계산 자원의 제약이 존재한다.
실무 활용
실시간 대화형 AI 아바타 및 스트리밍 비디오 서비스에 즉시 적용 가능한 고속 생성 기술이다.
- 실시간 뉴스 앵커 또는 AI 강사의 비디오 스트리밍 서비스
- 사용자 입력에 즉각 반응하는 대화형 게임 캐릭터의 음성 및 애니메이션 생성
- 저사양 단일 GPU 환경에서의 고품질 비디오 콘텐츠 제작 도구
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.