핵심 요약
기존의 비디오 생성 기반 미래 예측 모델은 모든 픽셀을 렌더링해야 하므로 연산 비용이 매우 높고 장기적인 물리적 일관성을 유지하기 어려웠다. 이 논문은 화면 전체가 아닌 핵심 포인트의 궤적만을 예측하는 방식을 통해 기존 대비 수천 배 빠른 속도로 다양한 물리적 시나리오를 탐색할 수 있게 한다.
왜 중요한가
기존의 비디오 생성 기반 미래 예측 모델은 모든 픽셀을 렌더링해야 하므로 연산 비용이 매우 높고 장기적인 물리적 일관성을 유지하기 어려웠다. 이 논문은 화면 전체가 아닌 핵심 포인트의 궤적만을 예측하는 방식을 통해 기존 대비 수천 배 빠른 속도로 다양한 물리적 시나리오를 탐색할 수 있게 한다.
핵심 기여
희소 포인트 궤적 기반의 단계별 미래 예측
전체 픽셀을 생성하는 대신 사용자가 지정한 희소 포인트들의 2D 궤적을 단계별로 예측하여 연산 효율성을 극대화하고 장기적인 물리적 일관성을 확보했다.
자기회귀 확산 모델 아키텍처
이전 단계의 궤적 정보를 조건으로 다음 단계의 움직임을 예측하는 Autoregressive Diffusion 구조를 채택하여 시간에 따른 불확실성의 증가를 효과적으로 모델링했다.
OWM(Open-World Motion) 벤치마크 구축
실제 환경의 다양한 비디오에서 추출한 95개의 시나리오를 바탕으로 물리적 타당성과 궤적 분포의 정확도를 평가할 수 있는 새로운 벤치마크를 제안했다.
시각적 조세(Visual Tax) 제거를 통한 효율성 달성
외형 렌더링 과정을 생략함으로써 기존 비디오 생성 모델 대비 파라미터 수는 줄이면서도 샘플링 속도는 수천 배 향상시켜 대규모 가상 시나리오 탐색을 가능하게 했다.
핵심 아이디어 이해하기
기존의 비디오 생성 모델은 미래를 예측할 때 화면의 모든 픽셀을 다시 그려야 한다. 이는 마치 내일 날씨를 예측하기 위해 지구 전체의 구름 모양을 픽셀 단위로 그리는 것과 같아서 연산량이 엄청나고 정작 중요한 물체의 움직임은 놓치기 쉽다. 이를 '시각적 조세(Visual Tax)'라고 부르며, 복잡한 상호작용이 일어나는 장기 미래 예측에서 큰 걸림돌이 된다.
이 논문은 우리 뇌가 미래를 상상할 때 중요한 물체의 움직임에만 집중한다는 점에 착안했다. Transformer의 Attention 메커니즘을 활용하여 전체 이미지가 아닌 특정 포인트들의 위치(Embedding) 정보만을 처리한다. 각 포인트는 자신의 현재 위치, 원래 위치, 그리고 시간을 입력값으로 받아 다른 포인트들과 상호작용하며 다음 위치를 결정한다.
특히 한 번에 먼 미래를 예측하는 대신, 짧은 시간 단위로 끊어서 예측하는 자기회귀(Autoregressive) 방식을 사용한다. 각 단계에서 발생할 수 있는 미세한 오차와 불확실성을 Diffusion 모델의 노이즈 제거 과정으로 정교하게 다듬는다. 결과적으로 픽셀 하나하나를 그리는 대신 '물체가 어디로 이동할지'라는 핵심 정보만 계산하므로, 동일한 컴퓨팅 자원으로 수천 개의 서로 다른 미래 시나리오를 순식간에 시뮬레이션할 수 있다.
방법론
전체 시스템은 단일 참조 프레임 I0와 K개의 쿼리 포인트 x0를 입력으로 받아 미래 궤적 x1:T를 생성하는 조건부 분포를 모델링한다. 핵심은 조인트 분포를 시간(Time)과 궤적(Trajectories) 단위로 인과적(Causal)으로 분해하여 자기회귀적으로 처리하는 것이다.
입력 데이터는 세 가지 정보를 융합하여 Motion Token으로 변환된다. [현재 위치의 이미지 특징 + 현재 운동 상태의 Fourier Embedding + 각 궤적의 고유 ID]를 입력으로 하여 소형 MLP를 통과시켜 tok(i)를 생성한다. 여기서 궤적 ID는 학습 시 보지 못한 개수의 물체에도 대응할 수 있도록 단위 구(Unit Sphere)에서 무작위로 추출된 벡터를 사용한다.
백본 네트워크는 효율성을 위해 설계된 Fast Reasoning Block을 사용한다. 기존 Transformer가 Self-Attention, Cross-Attention, FFN을 순차적으로 수행하는 것과 달리, 이들을 병렬로 배치하고 연산을 통합하여 커널 실행 횟수를 대폭 줄였다. [입력 벡터 h → 병렬화된 Attention 및 FFN 연산 → 잔차 연결 및 정규화] 과정을 거쳐 연산 속도를 최적화했다.
최종 출력단에는 Flow Matching(FM) 헤드를 배치했다. 가우시안 노이즈 상태의 궤적 변화량 Δx를 입력으로 받아 실제 데이터 분포로 변환하는 속도 벡터 vφ를 예측한다. 이때 'Scale Cascade' 기법을 도입하여 [로그 스케일로 간격이 조절된 계수 s와 tanh 함수를 적용]함으로써 아주 미세한 움직임부터 급격한 도약까지 안정적으로 학습하고 추론할 수 있도록 설계했다.
관련 Figure

이미지 특징, 운동 상태, 궤적 ID가 결합되어 토큰화되는 과정을 설명한다. 특히 현재 위치와 원래 위치를 모두 고려하는 Positional Encoding 방식이 모델의 공간 이해도에 기여함을 보여준다.
포인트 궤적을 Motion Token으로 변환하는 과정과 위치 인코딩 체계를 보여주는 다이어그램이다.
주요 결과
OWM 벤치마크 실험 결과, 제안 모델(Myriad)은 665M의 비교적 적은 파라미터로도 14B 규모의 Wan2.2나 5B 규모의 CogVideo-X와 같은 최신 비디오 생성 모델보다 높은 예측 정확도를 기록했다. 특히 'Best-within-5min' 설정(5분 내 최대한 많은 시나리오 생성 후 평가)에서 기존 모델들이 수십 개의 샘플을 만들 때 Myriad는 수천 개의 샘플을 생성하여 압도적인 성능 차이를 보였다.
물리적 이해도를 측정하는 PhysicsIQ와 Physion 데이터셋에서도 SOTA 비디오 모델들과 대등하거나 우수한 성능을 보였다. 비디오 모델들이 복잡한 물체 충돌 상황에서 움직임을 단순화하거나 물리적으로 불가능한 결과를 내놓는 반면, Myriad는 물체 간의 상호작용과 제약 조건을 정확히 반영하는 궤적을 생성했다.
당구 시뮬레이션 환경을 이용한 행동 선택(Action Selection) 실험에서는 78%의 성공률을 기록하여, 16% 수준에 머문 비디오 생성 기반 모델들을 크게 앞질렀다. 이는 초당 2200개의 샘플을 생성할 수 있는 높은 처리량(Throughput) 덕분에 최적의 경로를 찾는 'Planning' 작업에 매우 적합함을 입증한 결과이다.
관련 Figure

강체, 비강체, 다중 에이전트 등 다양한 물리적 상황이 포함된 데이터셋의 다양성을 입증한다. 실제 환경(In-the-wild)에서의 복잡한 움직임을 평가하기 위한 기준임을 명시한다.
OWM 벤치마크의 데이터 구성 통계와 실제 비디오 샘플들을 보여준다.
기술 상세
모델은 L-scale Transformer 구조를 기반으로 하며, 이미지 인코더는 DINOv3-L/16으로 초기화되어 512x512 해상도를 처리한다. 궤적 예측을 위해 Axial RoPE(Rotary Positional Embedding)를 사용하여 현재 위치, 시작 위치, 시간 정보를 공간적으로 인코딩한다. 이는 모델이 물체의 상대적 이동과 절대적 위치를 동시에 파악하게 돕는다.
학습은 10M개의 오픈셋 비디오 클립에서 추출한 의사 정답(Pseudo Ground-truth) 궤적을 사용하며, AdamW 옵티마이저와 bfloat16 혼합 정밀도 학습을 적용했다. 특히 카메라의 움직임(Ego-motion)을 분리하기 위해 V-DPM을 이용한 3D 트래킹 정보를 1인칭 시점으로 재투영하여 정적인 카메라 시점에서의 순수한 물체 움직임만을 학습하도록 데이터셋을 정제했다.
Flow Matching 헤드는 3개의 레이어와 1024의 너비를 가지며, 추론 시에는 Euler solver를 사용하여 50단계의 샘플링 과정을 거친다. KV 캐싱을 적극적으로 활용하여 자기회귀 추론 시 중복 연산을 제거했으며, 이를 통해 단일 H200 GPU에서 분당 2200개의 샘플을 생성하는 고성능을 달성했다.
관련 Figure

다양한 크기의 움직임을 안정적으로 처리하기 위해 tanh 함수와 로그 스케일 계수를 사용하는 원리를 시각화했다. 이는 모델이 미세한 떨림부터 큰 도약까지 모두 학습할 수 있게 하는 핵심 장치이다.
Flow Matching 헤드의 구조와 입력 값의 스케일을 조절하는 Scale Cascade 메커니즘을 나타낸다.
한계점
현재 모델은 정적인 카메라 시점(Static camera)을 가정하고 설계되어, 카메라 자체가 움직이는 1인칭 시점(Ego-motion)이나 동적인 뷰포인트 변화가 심한 장면에서는 예측 정확도가 제한될 수 있다. 또한 학습에 사용된 오프더쉘프 트래커(TAPNext 등)의 편향이나 오류가 모델의 예측 결과에 전이될 가능성이 존재한다.
실무 활용
이 기술은 실시간성이 중요한 로봇 경로 계획, 자율주행 예측, 인터랙티브 게임 엔진 등에서 물리적으로 타당한 미래 시나리오를 대량으로 시뮬레이션하는 데 즉시 활용 가능하다.
- 로봇 조작: 복잡한 물체가 섞여 있는 환경에서 로봇 팔이 물체를 건드렸을 때의 연쇄 반응을 수천 가지 시나리오로 예측하여 최적의 경로 선택
- 자율주행: 교차로에서 보행자와 주변 차량의 다양한 이동 경로를 실시간으로 시뮬레이션하여 사고 위험 최소화
- 게임 및 시뮬레이션: 정적인 이미지 한 장으로부터 물리 법칙이 적용된 캐릭터나 사물의 움직임을 즉석에서 생성하여 상호작용 구현
- 스포츠 분석: 당구, 농구 등 구기 종목에서 공의 궤적을 예측하여 최적의 슛 각도나 전술 수립 보조
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.