핵심 요약
기존 생성형 월드 모델은 고해상도 비디오를 생성하기 위해 막대한 연산 자원을 소모하지만, 이 논문은 프레임 간의 차이점(Delta)만을 학습하여 연산량을 2,000배 절감하면서도 정확한 미래 예측을 가능하게 한다. 이는 자율 주행이나 로봇 공학처럼 실시간으로 다양한 미래 시나리오를 시뮬레이션해야 하는 분야에 혁신적인 효율성을 제공한다.
왜 중요한가
기존 생성형 월드 모델은 고해상도 비디오를 생성하기 위해 막대한 연산 자원을 소모하지만, 이 논문은 프레임 간의 차이점(Delta)만을 학습하여 연산량을 2,000배 절감하면서도 정확한 미래 예측을 가능하게 한다. 이는 자율 주행이나 로봇 공학처럼 실시간으로 다양한 미래 시나리오를 시뮬레이션해야 하는 분야에 혁신적인 효율성을 제공한다.
핵심 기여
DeltaTok: 프레임 간 차이점을 단일 토큰으로 압축하는 토크나이저
연속된 프레임 사이의 VFM(Vision Foundation Model) 특징 차이를 단일 연속형 '델타' 토큰으로 인코딩하는 기술이다. 이를 통해 512x512 해상도 비디오에서 기존 대비 1,024배의 토큰 감소를 달성하며 비디오를 1차원 시퀀스로 변환한다.
DeltaWorld: 델타 토큰 기반의 고효율 생성형 월드 모델
DeltaTok이 생성한 압축된 토큰 공간에서 작동하는 월드 모델로, 단 한 번의 Forward Pass만으로 여러 개의 가능한 미래 시나리오를 동시에 생성할 수 있다. 기존 Cosmos 모델 대비 파라미터는 35배 적고 FLOPs는 2,000배 적은 비용으로 구동된다.
Best-of-Many(BoM) 학습 목적 함수 도입
학습 시 여러 미래 가설을 병렬로 생성하고 실제 정답과 가장 가까운 가설만 감독하는 방식을 사용한다. 이 방식은 모델이 미래의 불확실성을 반영하여 다양한 가능성을 학습하도록 유도하며 추론 시 반복적인 Denoising 과정 없이도 다양한 결과를 보장한다.
핵심 아이디어 이해하기
기존의 비디오 생성 모델은 각 프레임을 수많은 공간적 토큰(Spatial Tokens)으로 쪼개어 처리한다. 이는 배경처럼 변하지 않는 정보까지 매번 다시 계산하게 만들어 연산 낭비가 심하다. Transformer가 문장의 다음 단어를 예측하듯, 비디오에서도 '이전 프레임에서 무엇이 변했는가'라는 핵심 정보만 추출하면 훨씬 적은 데이터로도 전체 장면을 복원할 수 있다는 점에 착안했다.
DeltaWorld는 비디오의 3차원 시공간 정보를 1차원 시간 순서의 '델타 토큰'으로 압축한다. 마치 동영상 압축 기술에서 이전 프레임과의 차이값만 저장하는 원리를 딥러닝의 Embedding 공간에 적용한 것이다. 이를 통해 모델은 정적인 배경 정보에 매몰되지 않고 실제로 움직이는 객체나 변화하는 환경 요소에만 집중하여 학습할 수 있다.
결과적으로 모델은 복잡한 픽셀 단위의 재구성이 아니라, 이미 풍부한 의미 정보를 담고 있는 VFM(Vision Foundation Model)의 특징 공간에서 변화량만을 예측한다. 이는 학습 효율을 극대화할 뿐만 아니라, 단일 Forward Pass 내에서 여러 개의 노이즈 쿼리를 입력받아 서로 다른 미래 시나리오들을 동시에 출력할 수 있는 구조적 기반이 된다.
방법론
DeltaTok 토크나이저는 연속된 두 프레임의 VFM 특징 맵인 xt-1과 xt를 입력으로 받는다. Encoder g는 [xt-1, xt, zinit → g → zt] 과정을 거쳐 두 프레임 사이의 변화량을 나타내는 단일 델타 토큰 zt를 생성한다. Decoder h는 [xt-1, zt → h → xt] 연산을 통해 이전 프레임 정보와 델타 토큰을 결합하여 현재 프레임의 특징 맵을 복원한다. 이 과정에서 MSE Loss를 사용하여 원본 특징 맵과의 오차를 최소화하도록 학습된다.
DeltaWorld 예측 모델은 Transformer 아키텍처를 기반으로 하며, 과거의 델타 토큰 시퀀스 Z1:t를 입력으로 받아 다음 시점의 델타 토큰 zt+1을 예측한다. 학습 시에는 Best-of-Many(BoM) 전략을 사용하여 K개의 무작위 노이즈 쿼리 qk를 입력한다. 모델은 K개의 서로 다른 미래 후보를 생성하고, 이 중 실제 정답과 가장 유사한 후보에 대해서만 Loss를 계산하여 역전파한다. 이는 모델이 평균적인 미래가 아닌, 구체적이고 다양한 미래 시나리오를 생성하도록 만든다.
구현 측면에서는 DINOv3 ViT-B 모델을 고정된(Frozen) 백본으로 사용하며, 토크나이저와 예측 모델 모두 ViT-B 설정을 따른다. 512x512 해상도 입력을 처리할 때 1,024개의 패치 토큰을 단 1개의 델타 토큰으로 압축함으로써 시퀀스 길이를 획기적으로 줄였다. 추론 시에는 예측된 델타 토큰을 다시 토크나이저의 Decoder에 통과시켜 하위 태스크(세그멘테이션, 깊이 추정 등)에 필요한 특징 맵을 복구한다.
관련 Figure

기존 모델은 여러 번의 Forward Pass와 수많은 공간 토큰을 사용하는 반면, DeltaWorld는 단 한 번의 연산과 프레임당 단 하나의 델타 토큰만으로 여러 미래를 생성함을 보여준다. 이는 모델의 극단적인 효율성을 시각적으로 증명한다.
기존 생성형 월드 모델과 DeltaWorld의 구조적 차이를 비교한 다이어그램이다.
주요 결과
DeltaWorld는 VSPW, Cityscapes, KITTI 데이터셋을 이용한 밀집 예측(Dense Forecasting) 벤치마크에서 기존 SOTA 모델들을 압도하는 효율성을 입증했다. 특히 생성형 모델인 Cosmos-12B와 비교했을 때, Cityscapes mid-term mIoU 평가에서 55.4점을 기록하여 Cosmos의 53.3점보다 높은 정확도를 보였다. 이때 사용된 FLOPs는 3.1x10^4으로, Cosmos의 6.4x10^7 대비 약 2,000배 이상 적은 연산량으로 달성한 수치이다.
결정론적(Discriminative) 모델인 DINO-world와 비교해서도 우위를 점했다. 단일 예측만 수행하는 DINO-world가 Cityscapes에서 49.8 mIoU를 기록한 반면, DeltaWorld의 평균(Mean) 점수는 51.3 mIoU, 최적(Best) 샘플 점수는 55.4 mIoU를 기록했다. 이는 델타 토큰 방식이 단순히 효율적일 뿐만 아니라, 변화량에 집중하는 특성 덕분에 미래 예측의 정확도 자체를 향상시킨다는 것을 보여준다.
효율성 분석 결과, DeltaWorld는 기존 모델 대비 파라미터 수를 35배 이상 줄였으며(0.3B 수준), 추론 시 메모리 사용량도 80% 가량 절감했다. 특히 다중 가설 생성 시에도 예측 모델이 단일 토큰 시퀀스만 처리하면 되기 때문에, 샘플 개수가 늘어나도 연산 비용 증가가 매우 완만하다는 장점이 확인됐다.
관련 Figure

DeltaWorld는 Cosmos 대비 2,000배 적은 FLOPs를 사용하면서도 Cityscapes mIoU 성능에서 더 높은 수치를 기록하고 있다. 이는 효율성과 정확도 사이의 트레이드오프를 극복했음을 나타낸다.
Cosmos 모델과 DeltaWorld의 성능 및 연산 비용(FLOPs)을 비교한 그래프이다.
기술 상세
DeltaWorld의 핵심은 비디오 데이터를 공간적 중복성이 제거된 시간적 변화량(Delta)의 시퀀스로 재정의한 것이다. 기존의 비디오 토크나이저들이 각 프레임을 독립적으로 또는 시공간 블록으로 압축하는 것과 달리, DeltaTok은 이전 프레임의 특징 맵을 조건부 입력으로 사용하여 정보 이론적 관점에서 잔여 정보(Residual Information)만을 추출한다. 이는 비디오 코덱의 P-프레임 개념을 잠재 특징 공간(Latent Feature Space)으로 확장한 것과 유사하다.
학습 알고리즘인 Best-of-Many(BoM)는 다봉 분포(Multi-modal Distribution)를 갖는 미래 예측 문제에서 Mode Collapse를 방지하는 역할을 한다. K개의 가우시안 노이즈를 쿼리에 주입하여 생성된 결과 중 최소 오차를 갖는 샘플만 선택해 최적화함으로써, 모델이 특정 평균값으로 수렴하지 않고 데이터에 존재하는 다양한 미래 가능성을 보존하게 한다. 실험적으로 K=256일 때 가장 우수한 성능을 보였으며, 이는 모델이 충분히 넓은 가설 공간을 탐색할 수 있음을 의미한다.
아키텍처적으로는 고정된 VFM 백본을 사용함으로써 픽셀 재구성의 부담을 덜고 의미론적 이해에 집중했다. 토크나이저의 Encoder와 Decoder는 Transformer 블록의 스택으로 구성되며, 2D RoPE(Rotary Positional Embedding)를 통해 공간 정보를 유지한다. 반면 예측 모델은 1차원 델타 토큰 시퀀스만 다루므로 1D RoPE와 표준 인과적 마스크(Causal Mask)만으로도 충분히 효율적인 시계열 모델링이 가능하다.
관련 Figure

학습 시에는 Best-of-Many 손실 함수를 통해 최적의 토큰을 선택하고, 추론 시에는 노이즈 쿼리를 통해 다양한 미래 가설을 생성하는 메커니즘을 설명한다. 델타 토큰이 어떻게 시퀀스로 연결되는지 보여준다.
DeltaWorld의 학습 및 추론 과정을 상세히 나타낸 아키텍처 개요도이다.
한계점
델타 토큰은 이전 프레임의 복원된 특징 맵을 기반으로 현재 프레임을 복원하므로, 오토레그레시브 생성 과정에서 오차가 누적되는 Error Accumulation 문제가 발생할 수 있다. 또한 BoM 목적 함수는 명시적인 분포 추정(예: Diffusion)이 아니기 때문에, 노이즈 쿼리 K의 개수에 따라 예측 가능한 미래의 다양성이 제한될 수 있다는 한계가 있다.
실무 활용
매우 적은 연산 자원으로도 실시간 비디오 미래 예측이 가능하므로, 온디바이스 AI나 실시간 임베디드 시스템에 적용하기 적합하다.
- 자율주행 자동차의 주변 차량 및 보행자 경로 예측 시뮬레이션
- 로봇 팔의 물체 조작 시 발생 가능한 다양한 물리적 결과 예측
- 비디오 감시 시스템에서의 이상 행동 및 사고 발생 가능성 사전 탐지
- 저사양 기기에서의 실시간 비디오 프레임 보간 및 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.