핵심 요약
기존의 오디오-비디오 생성 모델은 음성과 영상의 세부적인 신호 특성을 구분하지 못해 입 모양이 어색하거나 영상 길이가 고정되는 한계가 있었다. 이 논문은 고수준의 의미 정보는 통합 모델로 처리하고 저수준의 신호 생성은 개별 디코더에 맡겨, 텍스트 길이에 맞춰 자연스럽게 늘어나는 고품질 대화 영상을 구현했다.
왜 중요한가
기존의 오디오-비디오 생성 모델은 음성과 영상의 세부적인 신호 특성을 구분하지 못해 입 모양이 어색하거나 영상 길이가 고정되는 한계가 있었다. 이 논문은 고수준의 의미 정보는 통합 모델로 처리하고 저수준의 신호 생성은 개별 디코더에 맡겨, 텍스트 길이에 맞춰 자연스럽게 늘어나는 고품질 대화 영상을 구현했다.
핵심 기여
고수준 의미 정보와 저수준 신호 생성의 분리
음성과 영상의 공통적인 의미 및 시간적 흐름은 공유된 Autoregressive Backbone에서 처리하고, 실제 파형이나 질감 같은 세부 신호는 독립적인 Diffusion Transformer 헤드에서 생성하는 계층적 구조를 제안했다.
가변 길이 생성을 지원하는 자기회귀 구조
고정된 길이를 생성하는 기존 Diffusion 모델과 달리, 텍스트의 길이에 따라 생성 종료 시점을 스스로 결정하는 Stop Predictor를 도입하여 자연스러운 발화 속도와 가변 길이를 지원한다.
단일 모델로 다중 작업 수행
추가적인 미세 조정 없이도 텍스트 기반 생성(T2AV), 오디오 기반 영상 생성(A2V), 영상 기반 오디오 더빙(V2A) 작업을 하나의 모델 아키텍처 내에서 모두 수행할 수 있다.
핵심 아이디어 이해하기
기존의 Dual-branch Diffusion 모델은 음성과 영상이라는 서로 다른 두 매체를 모든 단계에서 강하게 결합(Coupling)하려 했다. 이는 마치 두 사람이 서로의 손을 묶고 각자 다른 그림을 그리려는 것과 같아서, 공통된 주제(의미)는 맞출 수 있어도 붓 터치(세부 신호) 단계에서는 서로 방해가 되어 효율이 떨어진다.
Talker-T2AV는 이 문제를 해결하기 위해 '무엇을 말할지'와 '어떤 표정을 지을지'라는 고수준의 계획은 하나의 뇌(Autoregressive Backbone)에서 동시에 세우고, 실제 소리를 내거나 피부 질감을 그리는 작업은 각 분야의 전문가(Modality-specific Decoders)에게 맡기는 방식을 택했다. 이때 Transformer의 시퀀스 모델링 능력을 활용해 텍스트, 오디오 패치, 비디오 패치를 하나의 타임라인 위에 정렬한다.
결과적으로 모델은 텍스트로부터 문맥을 파악해 음성의 톤과 입 모양의 일치성을 확보하면서도, 각 매체가 가진 고유한 물리적 특성을 훼손하지 않고 정교하게 렌더링할 수 있게 된다. 이는 특히 긴 문장을 말할 때 정보가 누락되거나 입 모양이 뭉개지는 현상을 획기적으로 줄여준다.
방법론
전체 구조는 고수준의 Cross-Modal Modeling 단계와 저수준의 Modality-Specific Refinement 단계로 나뉜다. 먼저 입력 텍스트를 Prefix로 두고, 오디오와 비디오 프레임을 각각 WhisperX-VAE와 LIA-X 인코더를 통해 25Hz의 시간적 해상도를 가진 잠재 벡터(Latent)로 변환한다. 이때 N개의 프레임을 하나의 패치 토큰으로 압축하여 연산 효율을 높인다.
Autoregressive Backbone에서는 오디오 패치 임베딩 e_i^a와 비디오 패치 임베딩 e_i^v를 요소별 합산(Element-wise Summation)하여 하나의 조인트 토큰을 만든다. [e_i^a + e_i^v] 연산을 통해 두 매체의 정보를 동일한 차원의 벡터 공간에 중첩시키고, 이를 Causal Language Model에 입력하여 공유된 숨겨진 상태(Hidden State) h_i를 출력한다. 이 h_i는 다음 시점의 토큰을 예측하는 동시에 하위 디코더의 조건부 입력으로 사용된다.
마지막 단계에서는 두 개의 독립적인 Diffusion Transformer(DiT) 헤드가 h_i를 입력받아 Flow Matching 방식으로 실제 오디오와 비디오 잠재 패치를 복원한다. 각 헤드는 독립적인 파라미터를 가지며, 이전 패치의 프레임들을 컨텍스트 윈도우로 참조하여 패치 간의 시각적/청각적 연속성을 보장한다. 생성 종료는 마지막 Hidden State에 연결된 MLP 기반의 Stop Predictor가 확률값이 0.5를 넘는 순간 결정한다.
관련 Figure

텍스트가 입력되면 Autoregressive Backbone이 오디오/비디오 패치를 통합 처리하고, 이후 독립된 Diffusion Transformer 헤드가 각각의 신호를 정제하는 과정을 시각화한다. 하단에는 프레임 토큰이 패치로 압축되는 과정과 Diffusion 헤드의 내부 조건부 입력 구조가 상세히 묘사되어 있다.
Talker-T2AV의 전체 아키텍처와 데이터 흐름을 보여주는 다이어그램
주요 결과
실험 결과, Talker-T2AV는 기존 SOTA 모델인 UniAVGen 및 다양한 Dual-DiT 기반 모델들을 모든 지표에서 압도했다. 특히 오디오-비디오 동기화 성능을 측정하는 SyncNet Confidence 지표에서 중국어 기준 5.470, 영어 기준 6.330을 기록하며 기존 모델들(3.168, 2.555) 대비 2배 이상의 정확도를 보였다.
영상 품질 측면에서도 FVD(Frechet Video Distance) 점수가 중국어 103.31, 영어 246.39로 나타나, UniAVGen(157.92, 298.27)보다 훨씬 자연스러운 움직임을 생성함을 입증했다. 또한 텍스트 기반 생성뿐만 아니라 오디오 기반 영상 생성(A2V) 실험에서도 전용 모델인 EchoMimic이나 AniPortrait와 대등하거나 더 높은 립싱크 정확도를 달성했다.
비디오 더빙(V2A) 작업에서는 Chem 벤치마크를 통해 평가했을 때, 감정 유사도(EMO-SIM) 68.26%, 단어 오류율(WER) 6.33%를 기록하여 기존의 더빙 전용 모델들보다 더 정확하고 감정이 풍부한 음성을 생성하는 것으로 확인됐다.
기술 상세
Talker-T2AV의 핵심은 계층적 디커플링 아키텍처다. Backbone은 Qwen3-0.6B를 기반으로 초기화되어 강력한 텍스트 이해 능력을 갖추었으며, 오디오와 비디오의 시간적 정렬을 위해 두 매체의 인코더 출력 속도를 25Hz로 통일했다. 비디오 인코더인 LIA-X는 40차원의 모션 코드를 추출하고, 오디오 인코더인 WhisperX-VAE는 32차원의 연속적 잠재 벡터를 생성한다.
학습 시에는 데이터 부족 문제를 해결하기 위해 100만 개의 오디오-비디오 쌍 데이터와 대규모 TTS(Text-to-Speech) 데이터를 혼합하여 사용하는 Multi-task Training 전략을 사용했다. TTS 전용 데이터 학습 시에는 비디오 입력 자리에 학습 가능한 Padding Embedding을 넣어 모델이 텍스트와 음성 간의 관계를 더 견고하게 학습하도록 유도했다.
Diffusion 헤드는 8레이어의 Bidirectional Transformer 구조를 채택했으며, Flow Matching 목적 함수를 통해 학습 효율을 높였다. 추론 시에는 Euler ODE 솔버를 사용하여 10단계 만에 고품질 샘플링이 가능하도록 설계되어 실시간 응용 가능성을 높였다.
한계점
자기회귀 모델의 특성상 시퀀스가 매우 길어질 경우 예측 오류가 누적되어 품질이 점진적으로 저하될 수 있는 노출 편향(Exposure Bias) 문제가 존재한다. 또한 영상의 품질이 사용된 LIA-X 오토인코더의 성능에 제한되므로, 향후 더 고해상도의 비디오 표현 방식을 도입할 필요가 있다.
실무 활용
단일 모델로 텍스트 기반 아바타 생성, 기존 영상의 음성 더빙, 사진 한 장과 오디오를 결합한 립싱크 영상 제작이 모두 가능하여 콘텐츠 제작 파이프라인을 단순화할 수 있다.
- 다국어 영상 더빙: 원본 영상의 입 모양에 맞춰 자연스러운 외국어 음성을 생성하거나 그 반대의 경우
- AI 뉴스 앵커 및 교육용 콘텐츠: 텍스트 입력만으로 실시간에 가까운 대화형 아바타 생성
- 영화 제작 및 게임: 캐릭터의 대사와 표정을 일관성 있게 자동 생성하여 제작 비용 절감
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.