자기회귀적 동작 생성을 위한 인과적 동작 확산 모델

왜 중요한가

기존의 동작 생성 AI는 전체 시퀀스를 한꺼번에 계산해야 해서 실시간 응답이 불가능하거나, 순차 생성 시 동작이 무너지는 한계가 있었다. 이 논문은 인과적 확산 구조를 통해 과거 데이터만으로 다음 동작을 정교하게 예측함으로써, 게임이나 가상 현실에서 사용자의 입력에 즉각 반응하는 자연스러운 캐릭터 움직임을 실시간으로 구현할 수 있는 길을 열었다.

핵심 기여

CMDM 통합 프레임워크

인과적 자기회귀 모델의 순차 생성 능력과 확산 모델의 고품질 생성 능력을 결합하여 실시간 스트리밍이 가능한 동작 생성 시스템을 구축함.

MAC-VAE 구조 설계

동작 시퀀스를 4배 압축하면서도 시간적 인과 관계를 유지하고, 언어 임베딩과 의미적으로 정렬된 잠재 공간을 학습하는 새로운 변분 오토인코더를 제안함.

Causal Diffusion Forcing 학습 기법

각 프레임에 독립적인 노이즈 레벨을 할당하고 과거 프레임에만 의존하여 현재의 노이즈를 제거하도록 유도함으로써 시간적 일관성을 강화함.

프레임 단위 샘플링 스케줄(FSS)

이전 프레임의 부분적인 노이즈 제거 결과를 다음 프레임 예측의 가이드로 활용하여 추론 속도를 기존 대비 최대 12배 향상시킴.

핵심 아이디어 이해하기

기존의 Diffusion 모델은 마치 문장 전체를 한꺼번에 보고 교정하는 것과 같아서, 첫 단어부터 순서대로 말해야 하는 실시간 대화(스트리밍)에는 부적합했다. 반면 순서대로 단어를 뱉는 자기회귀 모델은 뒤로 갈수록 헛소리를 하는 '노출 편향' 문제가 있었다. CMDM은 이 두 방식의 장점만 취하기 위해 Transformer에 '과거만 보게 하는 가림막(Causal Mask)'을 설치했다.

핵심 원리는 각 동작 프레임이 서로 다른 '안개(노이즈)' 농도를 가지고 있어도, 이미 안개가 걷힌 과거 프레임들을 이정표 삼아 현재 프레임의 안개를 걷어내는 것이다. 이를 위해 동작 데이터를 언어의 의미와 일치하는 특수한 압축 공간(MAC-VAE)으로 옮겨 모델이 텍스트 설명을 더 정확하게 이해하도록 만들었다.

결과적으로 모델은 전체 시퀀스가 완성될 때까지 기다릴 필요 없이, 바로 직전까지의 움직임만 보고도 다음에 이어질 자연스러운 동작을 즉각적으로 계산해낸다. 이는 마치 숙련된 무용수가 앞선 동작의 흐름을 타고 다음 동작을 자연스럽게 이어가는 것과 같은 원리다.

방법론

MAC-VAE(Motion-Language-Aligned Causal VAE)는 1D 인과적 컨볼루션 레이어를 사용하여 동작 데이터를 시간축으로 4배 압축한다. 사전 학습된 Part-TMR 모델을 활용해 동작 특징 벡터 $z$ 와 텍스트 특징 $f$ 사이의 코사인 유사도 및 거리 행렬 유사도를 극대화하는 손실 함수를 적용한다. 이는 [동작 벡터와 텍스트 벡터를 입력으로] → [두 벡터 간의 거리를 계산하여] → [유사도를 높이는 방향으로 가중치를 갱신하여] → [텍스트 설명과 동작이 일치하는 잠재 공간]을 형성하는 원리다.

Causal-DiT(Causal Diffusion Transformer)는 하삼각 행렬 형태의 어텐션 마스크를 통해 미래 정보 유출을 차단한다. 각 프레임 $t$ 는 독립적인 노이즈 레벨 $k_t$ 를 가지며, 모델은 $L_{DF} = E[|| ext{noise} - ext{pred}||^2]$ 를 최소화하도록 학습된다. 이는 [노이즈가 섞인 과거 잠재 벡터들을 입력으로] → [Transformer 연산을 통해 현재 프레임의 노이즈 잔차를 예측하여] → [실제 노이즈와의 차이를 줄임으로써] → [과거에만 의존해 현재를 복원하는 인과적 생성 능력]을 확보한다.

추론 단계에서는 FSS(Frame-wise Sampling Schedule)를 도입한다. 불확실성 스케일 $L$ 을 사용하여 현재 프레임의 노이즈 제거가 완전히 끝나기 전에 다음 프레임의 계산을 시작한다. 이는 [이전 프레임의 중간 정제 값을 입력으로] → [다음 프레임의 초기 가이드로 사용하여] → [중복되는 확산 단계를 생략함으로써] → [추론 속도를 획기적으로 단축]하는 메커니즘이다.

주요 결과

HumanML3D 벤치마크에서 R-Precision(Top-1) 0.588, FID 0.068을 기록하며 기존 SOTA 모델인 SALAD(0.581, 0.076)를 능가하는 성능을 보였다. 특히 자기회귀 방식임에도 불구하고 확산 모델 특유의 높은 동작 현실성을 유지함이 확인됐다.

SnapMoGen 데이터셋을 활용한 긴 시퀀스 생성 실험에서도 FID 14.451을 달성하여 기존 모델인 MARDM(26.348) 대비 약 45% 개선된 품질을 입증했다. 이는 복잡한 동작이 연속되는 상황에서도 시간적 일관성을 잃지 않고 부드러운 전환이 가능함을 의미한다.

효율성 분석 결과, NVIDIA A100 GPU 기준 FSS를 적용했을 때 첫 프레임 이후 프레임당 생성 시간이 30ms로 단축됐다. 이는 기존 자기회귀 확산 모델들(150~~360ms) 대비 5~~12배 빠른 속도로, 실시간 스트리밍 환경에서 지연 시간 없는 동작 생성이 가능한 수준이다.

실무 활용

실시간 스트리밍이 가능한 구조와 낮은 지연 시간 덕분에 게임 엔진, 메타버스, 가상 아바타 제어 등 인터랙티브 콘텐츠 분야에 즉시 적용할 수 있다.

게임 내 플레이어의 텍스트 명령에 실시간으로 반응하는 캐릭터 애니메이션 시스템
가상 스트리머(VTuber)의 실시간 텍스트 기반 동작 합성 및 방송 송출
메타버스 내 NPC가 사용자와 자연스럽게 대화하며 움직이는 상호작용 구현
긴 호흡의 영화 및 애니메이션 제작 시 동작 시퀀스 자동 생성 및 편집 보조

기술 상세

전체 아키텍처는 MAC-VAE, Causal-DiT, FSS의 세 가지 핵심 모듈로 구성된다. MAC-VAE는 7개의 인과적 컨볼루션 레이어와 2개의 ResNet 블록을 사용하여 시간적 인과성을 엄격히 준수하며, 잠재 차원은 64로 설정되어 효율적인 정보 압축을 수행한다.

Causal-DiT는 8개 레이어, 4개 어텐션 헤드, 512 차원의 히든 유닛을 갖춘 경량 Transformer 구조를 채택했다. Flow Matching 기법을 ODE 샘플러로 사용하여 확산 과정을 최적화했으며, AdaLN(Adaptive Layer Normalization)과 ROPE(Rotary Positional Encoding)를 통해 프레임별 타임스텝 정보와 상대적 위치 정보를 안정적으로 주입한다.

Causal Diffusion Forcing 전략은 학습 시 각 프레임에 무작위 노이즈 레벨 $k_t \in [0, K]$ 를 할당하여 모델이 다양한 노이즈 상태의 과거 이력을 바탕으로 현재를 예측하도록 강제한다. 이는 수학적으로 확산 모델의 점진적 정제 과정과 자기회귀 모델의 조건부 확률 분포를 통합한 형태다.

FSS 알고리즘은 불확실성 스케일 $L$ 을 통해 추론 시 각 프레임의 노이즈 제거 시작 시점을 조절한다. 이전 프레임이 $K-L$ 단계까지 정제되면 다음 프레임의 생성을 병렬적으로 시작함으로써, 전체적인 추론 지연 시간을 최소화하면서도 프레임 간의 부드러운 연결성을 보장한다.

한계점

MAC-VAE의 성능이 사전 학습된 Part-TMR 모델의 품질에 의존하므로, 매우 추상적이거나 모호한 텍스트 묘사에 대해서는 생성 품질이 저하될 수 있다. 또한 수 분 이상의 초장기 시퀀스 생성 시 미세한 시간적 아티팩트가 누적될 가능성이 존재하며, 현재는 단일 캐릭터 동작에 특화되어 있어 다중 캐릭터 간의 복잡한 물리적 상호작용은 다루지 않는다.

키워드

Diffusion Model(확산 모델)Autoregressive(자기회귀)Motion Synthesis(동작 합성)Causal Transformer(인과적 트랜스포머)Real-time Streaming(실시간 스트리밍)