왜 중요한가
기존의 고품질 오디오-비주얼 생성 모델은 전체 시퀀스를 한꺼번에 처리해야 하는 구조적 한계 때문에 실시간 서비스가 불가능했다. 이 논문은 무거운 오프라인 모델을 실시간 스트리밍이 가능한 구조로 변환하는 증류 기법을 제안하여, 대화형 AI나 실시간 방송 등 다양한 분야에서 고품질 멀티모달 생성을 가능하게 한다.
핵심 기여
OmniForcing 스트리밍 프레임워크
오프라인 양방향 확산 모델을 고성능 스트리밍 자기회귀 생성기로 변환하는 최초의 프레임워크를 구축했다.
Asymmetric Block-Causal Alignment
오디오(25 FPS)와 비디오(3 FPS) 간의 극심한 데이터 밀도 차이를 해결하기 위해 1초 단위의 매크로 블록 정렬 방식을 도입하여 동기화 성능을 유지했다.
Audio Sink Token 및 Identity RoPE
오디오 토큰의 희소성으로 인한 학습 불안정성을 해결하기 위해 고정된 위치 정보를 가진 싱크 토큰을 활용하여 수치적 안정성을 확보했다.
Joint Self-Forcing Distillation
장기 생성 시 발생하는 오차 누적을 방지하기 위해 모델이 스스로 오류를 수정하며 학습하도록 설계하여 장시간 스트리밍 시의 품질을 보장했다.
핵심 아이디어 이해하기
기존의 Diffusion Transformer(DiT)는 양방향 Attention을 사용하여 전체 시퀀스를 동시에 참조하므로, 첫 프레임을 만드는 데도 전체 생성 시간만큼의 지연이 발생한다. 이는 마치 영화 전체가 다 만들어질 때까지 첫 장면을 볼 수 없는 것과 같다.
이를 해결하기 위해 과거 데이터만 참조하는 자기회귀 방식으로 바꾸려 하면, 오디오와 비디오의 데이터 생성 속도 차이 때문에 문제가 생긴다. 특히 오디오 스트림은 참조할 수 있는 과거 정보가 너무 적은 초기 단계에서 Softmax 연산이 특정 값에만 쏠려 수치적으로 폭주하는 Softmax Collapse 현상이 발생한다.
OmniForcing은 1초 단위로 데이터를 묶어 정렬하고, 오디오 스트림 앞에 'Sink Token'이라는 고정된 메모리 버퍼를 두어 수치적 안정성을 확보한다. 이를 통해 모델은 극도로 적은 정보만 있는 상황에서도 안정적으로 다음 오디오와 비디오를 예측할 수 있게 되어 실시간 스트리밍이 가능해진다.
방법론
3단계 증류 파이프라인을 통해 학습을 진행한다. Stage I에서는 양방향 DMD를 사용하여 모델의 기본 노이즈 제거 능력을 강화한다. Stage II에서는 제안된 블록 인과적 마스크를 적용하여 인과 관계를 학습시키며, Stage III에서는 Self-Forcing 기법을 통해 추론 시 발생하는 오차 누적 문제를 해결한다.
Asymmetric Block-Causal Masking은 비디오 3프레임과 오디오 25프레임을 1초 단위 매크로 블록으로 묶어 인과 관계를 정의한다. [입력 토큰의 블록 인덱스 τ(q) 계산 → 현재 블록 이하의 키 토큰만 참조하도록 마스킹 → 미래 정보 누설 방지 및 블록 내 양방향 정보 흐름 허용] 순서로 연산이 이루어진다.
Audio Sink Token 메커니즘은 오디오 시퀀스 앞에 16개의 학습 가능한 토큰을 배치한다. [싱크 토큰 입력 → Softmax 분모 값 확장 → Attention Entropy 회복 → 그래디언트 폭주 방지] 과정을 통해 학습 안정성을 확보한다. 또한 Identity RoPE 제약을 가해 이 토큰들이 위치 정보에 간섭받지 않는 순수한 의미론적 앵커 역할을 하게 한다.
주요 결과
추론 효율성 측면에서 5초 분량의 480p 영상을 생성하는 데 약 5.7초가 소요되며, TTFC는 0.7초로 교사 모델인 LTX-2(197초) 대비 약 35배 빠른 속도를 기록했다. 이는 단일 GPU에서 초당 25프레임(FPS)의 실시간 스트리밍이 가능한 수준이다.
품질 벤치마크인 JavisBench에서 FVD 137.2, FAD 5.7을 기록하여 양방향 교사 모델에 근접한 품질을 유지했다. 특히 텍스트 일관성 지표인 CLIP 점수에서는 0.322를 기록하여 교사 모델(0.318)을 능가하는 성과를 보였다.
동기화 성능 평가에서 DeSync 점수 0.392를 기록하여 교사 모델(0.384)과 대등한 수준의 오디오-비디오 동기화 능력을 입증했다. 이는 자기회귀 구조로의 변경에도 불구하고 멀티모달 정렬이 완벽하게 유지됨을 의미한다.
실무 활용
고품질 오디오-비디오를 실시간으로 스트리밍할 수 있어 대화형 AI 에이전트나 실시간 콘텐츠 생성 서비스에 즉시 적용 가능하다.
- 실시간 AI 아바타 대화 서비스 및 가상 상담원
- 스트리밍 기반 비디오 게임 내 동적 효과음 및 영상 생성
- 실시간 뉴스 및 방송용 자막 기반 영상 합성 시스템
- 저지연 인터랙티브 멀티미디어 예술 전시
기술 상세
아키텍처는 14B 파라미터의 비디오 스트림과 5B 파라미터의 오디오 스트림이 독립적인 FFN 레이어를 가지며 크로스 어텐션으로만 동기화되는 이중 스트림 구조를 채택했다. 이러한 구조적 분리는 단일 GPU 내에서 비대칭적 병렬 처리를 가능하게 한다.
Identity RoPE는 싱크 토큰에 대해 cos(θ)=1, sin(θ)=0 제약을 가하는 기법이다. 이를 통해 표준 Rotary Position Embedding이 부여하는 물리적 시간 편향을 제거하고, 싱크 토큰이 위치에 관계없이 일관된 전역 메모리 버퍼 역할을 수행하도록 보장한다.
Modality-Independent Rolling KV-Cache는 O(L) 복잡도의 슬라이딩 윈도우 캐시를 사용한다. 각 모달리티가 독립적으로 캐시를 관리하므로 긴 시퀀스 생성 시에도 메모리 사용량을 일정하게 유지하며, 매 단계마다 필요한 컨텍스트만 효율적으로 참조하여 추론 속도를 극대화한다.
한계점
인과적 수용 영역의 제한으로 인해 전체 시퀀스를 한꺼번에 참조하는 양방향 모델 대비 장기적인 일관성이나 미세한 동기화에서 아주 미미한 성능 저하가 발생할 수 있는 구조적 트레이드오프가 존재한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.