World-Action Interactive Models의 DAWN

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

월드 모델링과 의사결정의 상호작용을 latent space에서 실시간으로 갱신하는 WAIM 원칙을 제시한다. DAWN은 World Predictor와 World-Conditioned Action Denoiser를 재귀적으로 연결해 짧은 latent rollout으로도 긴 horizon의 계획을 가능하게 하며, NAVSIM v1/v2와 nuScenes 벤치마크에서 안전성과 계획 정밀도를 향상시켰다. 이러한 상호작용 추론은 픽셀 공간 렌더링 없이도 행동-세계 간 상호의존성을 활용해 보다 실행 가능한 자율주행 모델로의 전환을 제시한다.

왜 중요한가

월드 모델링과 의사결정의 상호작용을 latent space에서 실시간으로 갱신하는 WAIM 원칙을 제시한다. DAWN은 World Predictor와 World-Conditioned Action Denoiser를 재귀적으로 연결해 짧은 latent rollout으로도 긴 horizon의 계획을 가능하게 하며, NAVSIM v1/v2와 nuScenes 벤치마크에서 안전성과 계획 정밀도를 향상시켰다. 이러한 상호작용 추론은 픽셀 공간 렌더링 없이도 행동-세계 간 상호의존성을 활용해 보다 실행 가능한 자율주행 모델로의 전환을 제시한다.

핵심 기여

World-Action Interactive Models의 원칙 제시

세계와 행동이 상호 의존적으로 추론되는 WAIM의 프레임워크를 정의하고, 기존 WAM의 독립적/일방향 파이프라인의 한계를 극복한다.

DAWN 아키텍처 제시

World Predictor와 World-Conditioned Action Denoiser를 latent space에서 재귀적으로 연결하는 DAWN를 제안한다.

짧은 latent rollout으로 계획 성능 개선

픽셀 공간 미래를 렌더링하지 않고도 짧은 latent 롤아웃으로 장기 행동 생성을 지원하며, 추론 비용을 효율화한다.

벤치마크에서 성능 및 안전성 향상

NAVSIM v1/v2 및 nuScenes에서 perception-free planning 및 충돌 관련 지표를 개선한다.

핵심 아이디어 이해하기

단락 1: 기존 World Action Models(WAMs)은 세계 예측과 행동 생성을 별도 또는 순차적으로 다루며, action-contingent 미래를 공동 추론하지 못하는 한계를 보였다. 이로 인해 의사결정에 필요한 미래는 충분히 상호 의존적으로 반영되지 않았다. 단락 2: WAIM은 미래의 세계 상태와 행동을 상호 작용하며 추론하는 프레임워크다. DAWN은 학습 시나리오에서 World Predictor와 World-Conditioned Action Denoiser를 latent space에서 상호작용시키고, predicted world가 action denoising을, 반대로 denoised action이 세계 롤아웃을 업데이트하도록 재귀적 피드백을 구성한다. 단락 3: 이 상호작용 설계는 짧은 latent 롤아웃이 긴 horizon의 안정적 계획과 안전성 개선에 충분하다는 것을 입증한다. 실험에서 DAWN은 4회 인터랙티브 라운드에서 최적의 PDMS를 달성했고, 2s~3s horizon에서 L2 오류를 크게 감소시켰으며 충돌율도 감소했다. 단락 4: 이런 방식은 픽셀 공간의 미래를 전면 렌더링하지 않고도, 월드-액션 쌍의 일관된 추론을 가능하게 하여 실행 가능한 자동주행 모델로의 실용적 진화를 제시한다.

방법론

구현 요약: DAWN은 현재 관측 o에서 Student Vision-Encoder Estu, Auto-Encoder Resampler, World Predictor Pθ, World-Conditioned Action Denoiser Gϕ, Action Head Hact으로 구성된다. 학습 중 Teacher Vision-Encoder Etea와 Rtea를 보조적으로 사용해 target future latents z_target을 얻고, World Predictor의 예측과 Action Denoiser의 정제를 통해 세계-액션의 일관된 가설을 만든다. 추론 시에는 teacher branch를 제거하고, 초기 액션 a(0)1:H를 resampler latent z로부터 Gϕ(qinit, c, z)로 생성한 뒤, K번의 refinement 루프를 수행한다. 루프의 각 단계에서 z_future = Pθ(z, c, a (r)1:H)로 세계를 롤아웃하고, Gϕ의 qref로 a(r+1)1:H를 갱신한다. 최종적으로 Hact가 τˆ를 디코딩한다.

학습 단계:

Stage 1: Vision pretraining — Estu를 대규모 운전 영상에서 학습하고 Etea를 EMA로 업데이트한다.
Stage 2: Auto-Encoder Resampler training — Estu의 dense encoder 토큰을 16~64 토큰의 latent world tokens로 압축하는 bottleneck를 학습한다.
Stage 3: World Predictor training — Pθ를 nuScenes, NAVSIM 등에서 미래 latent world states를 예측하도록 학습한다.
Stage 4: Joint world-action training — Pθ, Gϕ, Hact를 결합해 world loss와 planning loss를 함께 최적화한다.

추론 상세: Inference는 Qinit(초기 제안)로 시작해 K번의 인터랙티브 라운드를 거치며 z(k+1) fut, a (k+1) ref를 교차로 업데이트한다. 이때 월드 롤아웃은 짧은 horizon에서만 수행되며, 전체 horizon에 대한 pixel-space 렌더링은 필요하지 않다.

주요 결과

메인 벤치마크: NAVSIM v1에서 DAWN은 perception-free PDMS 89.1로 최상위를 차지했고 NC=98.7, DAC=95.9, TTC=100, EP=84.3, 차이가 가장 큼. nuScenes 벤치마크에서 평균 L2 error가 0.33 m로 최저치를 기록했고, 1s/2s/3s에서 각각 0.17 m, 0.31 m, 0.52 m의 L2를 달성했다. 평균 Collision Rate는 0.11%로 최상위에 근접했다. NAVSIM v2에서는 EPDMS가 83.2로 상위권이며, DWMs 대비 안정성 및 주행 연속성 측면에서 강점을 보인다. ablations에서 Resampler + Predictor + Interactive 순으로 PDMS가 82.9 → 85.2 → 87.9로 증가하며, 4회의 interactive rounds에서 최대 이득을 얻고, 이후 수렴한다. Latent tokens 수를 16→64로 증가시키면 일부 지표는 소폭 향상되지만 Latency가 크게 증가한다는 점이 확인된다. 추가 분석: World→Action 및 Action→World 양방향 상호작용 제거 시 PDMS가 크게 감소해 양방향 교류의 필요성을 확인했고, 0s의 zero-rollout에서 성능이 떨어지며 2–3s의 latent rollout이 실용적 최적점에 가깝다는 점이 제시됐다.

기술 상세

전체 아키텍처 구조: Student Vision-Encoder Estu, Teacher Vision-Encoder Etea, Auto Encoder Resampler Rstu, Auto Encoder Resampler Rtea, World Predictor Pθ, World-Conditioned Action Denoiser Gϕ, Action Head Hact. 학습은 Stage 1~4로 구성되며, 인퍼런스는 teacher branch 제거 후 재귀적 월드-액션 상호작용으로 이뤄진다. 수학적/알고리즘적 기반: v̂future = Fθ(o, l, â)로 미래 world를 예측하고, â = Gϕ(o, l, v̂future)로 action을 갱신한다. 이 과정은 (v1:T, a1:H) 쌍이 서로 의존하는 self-consistent 추론으로 구현되며, IΘ는 v( k+1)1:T, a (k+1)1:H를 업데이트하는 루프를 통해 이루어진다. Prior work 대비 차별점: WAM이 세계와 액션을 독립적/일방적으로 다루는 데 비해, DAWN은 latent rollout을 통해 두 가지를 상호 갱신하는 WAIM 원리를 실현한다. pixel-space 미래 렌더링 없이도 장기 계획 수행이 가능하도록, short latent rollout에 집중한다. 구현 및 학습 세부사항: 비전 백본으로 V-JEPA 2 Large를 사용하고, dense 토큰을 16/64 latent 토큰으로 압축하는 Auto-Encoder Resampler를 도입한다. World Predictor는 causal Transformer, Action Denoiser는 DiT-스타일 diffusion 브렁크를 채택하며, 5 sampling steps를 inference에 활용한다. 학습은 150에폭, bfloat16 혼합정밀도, 80 GPU에서 수행된다.

실무 활용

DAWN은 짧은 latent rollout을 통해 월드-액션 상호작용을 효과적으로 추론하고, 픽셀 수준의 미래 렌더링 없이도 장기 계획이 가능하도록 한다.

자율주행 차량의 계획-제어 파이프라인에서 perception과 planning을 단일 모듈로 결합해 안전성 및 매끄러운 주행을 향상
시뮬레이션 기반 주행 정책 학습 및 안전성 평가에 활용
멀티에이전트 시나리오에서 행동의 상호작용에 의한 미래를 효율적으로 탐색
픽셀 렌더링 비용 없이 latent space에서의 비주얼-프롬프트 기반 의사결정 연구

코드 공개 여부: 공개

코드 저장소 보기

키워드

World-Action ModelsWAIMDAWNlatent spaceWorld PredictorWorld-Conditioned Action Denoiserlatent rolloutautonomous driving

코드 예제

text

Algorithm 1 DAWN Training
Require: Pretraining data Dpre, task data Dtask
Require: Encoders Estu, Etea, resamplers Rstu, Rtea
Require: World Predictor Pθ, Action Denoiser Gϕ, Action Head Hact
Ensure: Trained DAWN
1: Stage 1: Vision pretraining.
2: Pretrain Estu on unified driving videos from Dpre; update Etea by EMA.
3: Stage 2: Resampler training.
4: Train Rstu as a token-space autoencoder on dense encoder tokens Estu(o).
5: Stage 3: World predictor training.
6: for each (o, l, o+) ∈ Dtask do
7: z ← Rstu(Estu(o)), ztar ← Rtea(Etea(o+))
8: zˆfut ← Pθ(z, c)
9: Update Pθ by minimizing LWM = d(ˆzfut, ztar)
10: end for
11: Stage 4: Joint world-action training.
12: Initialize Pθ from Stage 3 and attach Gϕ and Hact
13: for each (o, l, o+, τ ⋆) ∈ Dtask do
14: z ← Rstu(Estu(o)), ztar ← Rtea(Etea(o+))
15: a(0)1:H ← Gϕ(qprop, c, z)
16: for r = 0 to R − 1 do
17: z (r) fut ← Pθ(z, c, a (r)1:H)
18: a (r+1)1:H ← Gϕ(q (r) ref , c, z (r) fut , a (r)1:H)
19: end for
20: Update Pθ, Gϕ, Hact with world loss and planning loss
21: end for
22: return Trained DAWN

DAWN의 학습 과정을 기술한 의사코드의 주요 흐름(Stage 1~4)을 최상위 수준으로 제시합니다.