핵심 요약
텍스트 설명과 같은 추상적인 명령과 특정 경로를 따라가는 구체적인 움직임을 동시에 제어하는 것은 매우 어렵다. 이 논문은 확산 모델을 토크나이저의 디코더로 활용해, 아주 적은 정보만으로도 자연스럽고 정교한 3D 캐릭터 동작을 생성하는 새로운 표준을 제시한다.
왜 중요한가
텍스트 설명과 같은 추상적인 명령과 특정 경로를 따라가는 구체적인 움직임을 동시에 제어하는 것은 매우 어렵다. 이 논문은 확산 모델을 토크나이저의 디코더로 활용해, 아주 적은 정보만으로도 자연스럽고 정교한 3D 캐릭터 동작을 생성하는 새로운 표준을 제시한다.
핵심 기여
Perception-Planning-Control 3단계 프레임워크 제안
이질적인 조건들을 전역(텍스트) 및 지역(궤적) 제약 조건으로 분리하여 처리하고, AR 및 DDM 플래너를 모두 지원하는 통합 인터페이스를 구축하여 다양한 생성 모델에 적용 가능함.
확산 모델 기반 이산 모션 토크나이저 MoTok 개발
세부적인 모션 복구 작업을 확산 디코더에 위임함으로써, 단일 레이어 코드북만으로도 높은 품질을 유지하며 토큰 사용량을 기존 대비 1/6 수준으로 압축하는 데 성공함.
계층적 조건 주입(Coarse-to-Fine) 스킴 도입
토큰 계획 단계에서는 거친 제약 조건을, 확산 디코딩 단계에서는 정교한 운동학적 제약 조건을 적용하여 제어 가능성과 모션의 사실성을 동시에 확보함.
핵심 아이디어 이해하기
기존의 모션 생성은 연속적인 확산 모델(Diffusion)과 이산적인 토큰 기반 생성기(Token-based)로 나뉘어 있었다. 확산 모델은 물리적인 움직임 제어에 강하지만 텍스트 같은 추상적 의미 연결이 어렵고, 토큰 방식은 의미 처리는 잘하지만 정교한 움직임을 표현하려면 토큰 수가 너무 많아져 연산 부담이 커지는 한계가 있다. MoTok은 이 두 방식의 장점을 결합하기 위해 '역할 분담'을 선택한다. 토큰은 움직임의 핵심적인 '의미 구조'만 담당하고, 실제 부드럽고 정교한 '근육의 움직임'은 확산 모델 기반의 디코더가 채워넣는 방식이다. 이는 마치 작가가 글의 개요(토큰)만 잡으면, 숙련된 삽화가(확산 디코더)가 세부 묘사를 완성하는 것과 같다. 결과적으로 매우 적은 수의 토큰(기존의 1/6)만으로도 캐릭터가 지정된 경로를 정확히 따라가면서도 텍스트 설명에 맞는 자연스러운 동작을 수행하게 된다. 특히 제약 조건이 강해질수록 품질이 떨어지던 기존 방식과 달리, 제약이 많을수록 오히려 더 정확하고 사실적인 동작을 생성하는 역전 현상을 보여준다.
방법론
MoTok 아키텍처는 Convolutional Encoder, Vector Quantizer, Diffusion Decoder로 구성된다. 입력 모션 시퀀스를 인코더를 통해 시간축으로 다운샘플링하여 잠재 특징을 추출하고, 이를 코드북의 가장 가까운 엔트리에 매핑하여 압축된 이산 토큰열을 획득한다. [모션 시퀀스 → 시간축 다운샘플링 및 특징 추출 → 가장 유사한 코드북 인덱스 할당 → 압축된 이산 토큰열 획득] 디코더는 단순한 회귀 모델이 아닌 조건부 확산 모델을 채택한다. 양자화된 토큰을 다시 프레임별 조건 신호로 업샘플링한 뒤, 노이즈가 섞인 입력으로부터 깨끗한 모션을 예측하는 과정을 반복하여 고해상도 모션을 복원한다. [이산 토큰 → 컨볼루션 업샘플링 → 확산 모델의 조건 입력 → 반복적 노이즈 제거를 통한 고해상도 모션 복원] 제어 과정에서는 계층적 주입 방식을 사용한다. 텍스트와 같은 전역 조건은 플래닝 단계에서 토큰 생성을 가이드하고, 궤적 같은 지역 조건은 디코딩 단계에서 보조 손실 함수의 그래디언트를 이용해 매 스텝마다 보정된다. [목표 궤적과 현재 예측값의 차이 계산 → 그래디언트 산출 → 노이즈 제거 단계에서 예측값 업데이트 → 물리적 제약 조건 준수]
주요 결과
HumanML3D 데이터셋에서 MoTok-DDM-4 모델은 FID 0.027을 기록하여 기존 SOTA인 MaskControl(0.061) 대비 모션의 품질을 크게 향상시켰다. 특히 궤적 오차를 0.72cm에서 0.08cm로 9배 가까이 줄이면서도 토큰 사용량은 1/6에 불과하여 효율성을 입증했다. Ablation Study 결과, 단순 컨볼루션 디코더를 사용할 때보다 확산 기반 디코더를 사용할 때 재구성 FID가 0.0704에서 0.0244로 대폭 개선되었으며, 이는 확산 모델이 토큰에 담기지 않은 고주파 모션 디테일을 복원하는 데 탁월함을 보여준다. 또한 제어 지점의 수가 늘어날수록 성능이 저하되던 기존 모델들과 달리, MoTok은 제어 조건이 추가될수록 FID가 개선되는 경향을 보여 의미론적 계획과 운동학적 제어가 상호 보완적으로 작동함을 확인했다.
실무 활용
3D 애니메이션 제작, 게임 캐릭터 컨트롤, 로봇 경로 계획 등 정교한 움직임 제어가 필요한 분야에 즉시 적용 가능하다. 적은 연산 자원으로도 고품질 모션을 생성할 수 있어 실시간 응용에 유리하다.
- 텍스트 명령과 궤적 입력을 동시에 사용하는 게임 캐릭터 애니메이션 시스템
- 로봇 팔의 작업 경로를 자연스러운 인간의 움직임으로 생성하는 시뮬레이션
- 메타버스 환경에서 사용자 아바타의 실시간 모션 보정 및 생성
기술 상세
MoTok은 모션 표현을 의미적 추상화와 세부 재구성으로 분리한다. 이산 토큰은 저주파의 구조적 정보만 인코딩하고, 확산 디코더가 고주파의 운동학적 디테일을 생성하도록 설계하여 토큰 효율성을 극대화했다. 플래닝 단계에서는 Masked-token Diffusion(DDM)과 Autoregressive(AR) 방식을 모두 지원하는 통합 인터페이스를 사용하며, 전역 조건은 시퀀스의 첫 번째 토큰으로, 지역 조건은 각 토큰 위치에 가산되어 주입된다. 디코딩 시 Classifier-free Guidance를 적용할 때 의미 조건과 궤적 조건을 교대로 드롭아웃하는 전략을 사용하여 두 조건 간의 균형을 맞춘다. 또한 추론 시에는 Fast27 같은 가속 샘플링 기법을 적용하여 확산 모델의 느린 속도 문제를 완화하고 실용성을 높였다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료