핵심 요약
기존 비디오 생성 모델은 픽셀 단위의 변화를 모두 계산해야 하므로 모션 계획이나 시뮬레이션에 활용하기에는 너무 느리고 무겁다. 이 논문은 모션 데이터를 64배 압축된 전용 임베딩 공간에서 처리함으로써, 복잡한 물리적 움직임을 기존 대비 수만 배 빠른 속도로 생성하고 제어할 수 있는 새로운 프레임워크를 제시한다.
왜 중요한가
기존 비디오 생성 모델은 픽셀 단위의 변화를 모두 계산해야 하므로 모션 계획이나 시뮬레이션에 활용하기에는 너무 느리고 무겁다. 이 논문은 모션 데이터를 64배 압축된 전용 임베딩 공간에서 처리함으로써, 복잡한 물리적 움직임을 기존 대비 수만 배 빠른 속도로 생성하고 제어할 수 있는 새로운 프레임워크를 제시한다.
핵심 기여
64배 압축률의 장기 모션 임베딩 학습
대규모 트래커 데이터를 활용하여 비디오의 외형 정보와 분리된 순수 운동학적 구조만을 추출하고, 이를 시간축으로 64배 압축한 콤팩트한 잠재 공간(Latent Space)을 구축했다.
잠재 모션 공간 기반의 Flow-matching 생성 모델
학습된 모션 임베딩 공간 위에서 직접 동작하는 Flow-matching 모델을 설계하여, 텍스트 프롬프트나 공간적 포크(Poke) 입력에 따라 물리적으로 일관된 궤적을 즉각적으로 생성한다.
비디오 모델 대비 압도적인 추론 효율성 달성
SOTA 비디오 모델인 WAN이 초당 0.2 타임스텝을 생성할 때, 제안 모델인 ZipMo는 초당 2500 타임스텝을 생성하여 10,000배 이상의 속도 향상을 입증했다.
핵심 아이디어 이해하기
기존의 비디오 생성 모델은 이미지의 질감, 조명, 형태와 같은 '외형(Appearance)' 정보와 물체의 '움직임(Motion)' 정보를 하나의 고차원 텐서에서 동시에 처리한다. 이로 인해 단순한 움직임을 예측하려 해도 수백만 개의 픽셀 값을 매 프레임 계산해야 하는 비효율이 발생하며, 정교한 물리적 제어가 어렵다.
이 논문은 움직임만을 전문적으로 다루는 '모션 공간'을 별도로 정의하여 이 문제를 해결한다. 마치 복잡한 문장을 핵심 키워드로 요약하듯, 수많은 프레임에 걸친 궤적 데이터를 Transformer 기반의 Autoencoder를 통해 압축된 임베딩으로 변환한다. 이때 시간축으로 64배라는 높은 압축률을 적용하여, 긴 시간 동안의 복잡한 움직임을 아주 작은 데이터 단위로 표현할 수 있게 된다.
이렇게 압축된 공간에서는 움직임의 '의미'가 보존되므로, 모델은 픽셀 하나하나에 신경 쓰는 대신 물체가 어디로 어떻게 이동해야 하는지라는 고차원적인 논리에 집중할 수 있다. 결과적으로 사용자가 '독수리가 원을 그리며 비행한다'는 텍스트를 입력하면, 모델은 압축된 공간에서 최적의 궤적을 순식간에 찾아내고 이를 다시 실제 움직임으로 복원해낸다.
관련 Figure

단일 시작 프레임으로부터 독수리가 취할 수 있는 여러 가지 물리적으로 가능한 비행 경로를 동시에 생성할 수 있음을 보여준다. 이는 모델이 결정론적인 예측이 아닌, 잠재 공간 내에서 확률 분포를 통해 다양한 미래를 탐색할 수 있는 능력이 있음을 입증한다.
독수리의 비행 궤적을 생성하는 모델의 다중 가설 생성 예시
방법론
전체 프레임워크는 두 단계로 구성된다. 첫 번째 단계는 변분 오토인코더(VAE)를 사용하여 희소한 트래커 궤적(Sparse Tracks)을 연속적인 잠재 임베딩 grid z로 매핑하는 과정이다. 입력된 N개의 궤적 데이터 X와 첫 번째 프레임 f0를 인코더 Eθ에 입력하면, H x W x D 크기의 잠재 그리드가 생성된다. 이 그리드는 비디오 내의 모든 운동학적 정보를 요약하는 병목(Bottleneck) 역할을 수행한다.
두 번째 단계는 이 잠재 공간 z 위에서 동작하는 조건부 Flow-matching 모델(ZipMo Planner)을 학습하는 것이다. 신경 벡터장 vφ(zt, c, t)는 가우시안 노이즈 p0에서 실제 데이터 분포 p1으로 향하는 순간적인 흐름을 예측하도록 학습된다. [노이즈 상태의 잠재 변수 zt와 조건 정보 c(텍스트 또는 포크)를 입력으로] → [Transformer 블록 내에서 Cross-attention 연산을 수행하여] → [목표 데이터로 향하는 벡터장 v를 출력하고] → [이를 통해 물리적으로 타당한 모션 임베딩을 생성한다].
학습 시에는 β-VAE 목적 함수를 사용하여 L1 재구성 손실과 KL 정규화 항을 결합한다. [재구성된 궤적과 실제 궤적의 차이를 계산하여] → [L1 Loss를 적용하고] → [잠재 공간의 분포를 표준 정규 분포에 가깝게 강제하여] → [생성 모델이 샘플링하기 좋은 구조화된 잠재 공간을 형성한다].
주요 결과
Poked Motion Generation 실험에서 ZipMo는 기존 Flow 기반 모델인 Motion-I2V 대비 100배 이상의 속도(2500 vs 21 timesteps/s)를 기록하면서도, 궤적 오차(Min MSE)를 135.7에서 41.0으로 대폭 낮췄다. 특히 포크(Poke) 입력이 적은 불확실한 상황에서도 물리적으로 훨씬 일관된 움직임을 생성하는 능력을 보였다.
로보틱스 벤치마크인 LIBERO 환경에서 텍스트 지시문에 따른 작업 성공률을 측정한 결과, 기존 SOTA 모델인 Amplify(71.4%)와 Tra-MoE(61.4%)를 능가하는 80.3%의 평균 성공률을 달성했다. 이는 학습된 모션 임베딩이 단순한 시각적 흉내를 넘어 로봇 제어에 필요한 실제 물리적 인과관계를 잘 파악하고 있음을 시사한다.
비디오 생성 모델인 WAN 및 Veo 3와의 비교 실험(Sample Matched)에서도 ZipMo는 1초 이내에 10,000개 이상의 샘플을 생성하는 동안 비디오 모델은 단 1개의 샘플을 생성하는 데 그쳤으며, 생성된 궤적의 정확도(EPE) 또한 비디오 모델(4.68~6.21)보다 우수한 1.17을 기록했다.
기술 상세
ZipMo 아키텍처는 LLaMA 구조를 따르는 Transformer 기반으로 설계되었으며, VAE는 340M, Motion Planner는 530M 파라미터를 보유한다. 잠재 그리드는 16x16 해상도를 가지며, 각 토큰은 3D RoPE(Rotary Positional Embedding)를 통해 시간과 공간 정보를 동시에 인코딩한다.
핵심 차별점은 'Temporal Compression'의 극대화다. 실험 결과, 시간축 압축률을 높일수록(최대 64배) 토큰 수가 줄어들어 학습 효율이 올라갈 뿐만 아니라, 잠재 공간의 kNN 검색 정확도가 상승하는 등 의미론적 구조가 더 명확해지는 현상을 발견했다. 이는 강한 압축이 오히려 모션의 핵심 특징을 추출하는 정규화 역할을 수행함을 의미한다.
구현 측면에서는 DINOv2 ViT-B/14를 이미지 인코더로 사용하여 풍부한 시각적 컨텍스트를 제공하며, Flow-matching 단계에서는 24레이어의 Transformer를 통해 텍스트 임베딩(BERT) 또는 포크 입력을 Cross-attention으로 통합한다. 학습에는 16~64개의 NVIDIA H200 GPU가 사용되었으며, 약 3일의 학습 시간이 소요되었다.
한계점
본 모델은 트래커(Tracker) 모델에서 얻은 궤적 데이터에 의존하여 학습되므로, 트래커 자체가 잡아내지 못하는 아주 미세한 움직임이나 가려짐(Occlusion)이 심한 상황에서의 데이터 품질 한계를 상속받을 수 있다. 또한 현재는 운동학적 궤적 생성에 집중하고 있어, 생성된 궤적을 다시 고해상도 비디오로 렌더링하기 위해서는 별도의 비디오 생성 모델이 추가로 필요하다.
실무 활용
이 기술은 실시간성이 중요한 로봇 경로 계획 및 인터랙티브 비디오 편집 분야에 즉시 적용 가능하다. 특히 고비용의 비디오 생성 없이도 물체의 움직임을 미리 시뮬레이션할 수 있어 엣지 디바이스에서의 활용도가 높다.
- 로봇 팔의 복잡한 작업(물건 집기, 문 열기 등)을 위한 실시간 궤적 생성 및 계획
- 이미지 내 특정 객체를 드래그하여 움직임을 제어하는 인터랙티브 사진 편집 도구
- 자율주행 시스템에서 주변 차량 및 보행자의 장기적인 경로 예측 시뮬레이션
- 게임 엔진 내에서 캐릭터의 물리 기반 애니메이션 자동 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.