SANA-WM: Hybrid Linear Diffusion Transformer를 활용한 효율적인 분 단위 월드 모델링

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

분 단위의 월드 모델링은 고해상도 시각 일관성과 연속적 카메라 추적을 필요로 한다. SANA-WM은 2.6B 파라미터의 오픈 소스 백본으로 1분 간의 고충실도 영상 생성을 가능하게 하며, 64×H100 학습과 단일 GPU 추론 같은 비용 효율성을 대폭 개선한다. 이로써 단위 시간 길이의 시뮬레이션과 카메라 제어 평가를 보다 접근성 있게 수행할 수 있다.

왜 중요한가

핵심 기여

Native one-minute backbone with high compression

720p 분 단위 생성을 목표로 LTX2-VAE를 채용하고 프레임 단위 GDN 블록과 주기적 softmax 주의(attention)를 혼합한 Hybrid DiT 백본으로 구성. 이 조합은 긴 컨텍스트를 비용 효율적으로 유지하면서도 씬 유지성과 카메라 조건화를 충분히 표현한다.

Dual-Branch Camera Control

전역 6-DoF 궤적 구조를 포착하는 latent-rate UCPE 브랜치와, 각 VAE 시간 간격 내의 미세 카메라 모션을 보정하는 raw-frame Plücker mixing 브랜치를 결합해 연속 액션 궤적 추적 정확도를 높인다.

Two-Stage Visual Refinement

Stage-1의 60s 출력에 대해, 독립 Refiner를 적용해 시각 품질을 개선하고 긴 호라이즌에서의 구조적 artefact를 감소시킨다.

Robust Data Annotation & Evaluation Pipeline

공개 비디오에서 metric-scale pose를 회복하는 VIPE 기반 파이프라인을 Pi3X+MoGe-2로 교체하여 ∼213K clip의 메트릭 스케일 자세 데이터를 얻고, 1분 월드 모델 벤치마크를 구축한다.

Efficient Training & Deployment

213K 코호스에서 64×H100으로 약 15일 학습, 추론은 1 GPU에서 가능하며, distillation(NVFP4 양자화)으로 60s 720p를 34s에 재생산하는 버전이 존재한다. 60s 벤치마크에서 기존 오픈 baselines 대비 최대 36× throughput 향상을 달성한다.

핵심 아이디어 이해하기

출발점과 한계: 분 단위의 고해상도 영상 생성은 긴 컨텍스트의 모델링 비용이 증가하고, 6-DoF 카메라 궤적에 대한 정밀 제어가 필요하다. 기존의 대형 모델은 데이터 및 연산 소모가 큰 반면, 소형/중간 규모 모델로의 분당 길이 확장은 어려웠다. 해결 원리: (1) Hybrid GDN/Softmax 어텐션으로 프레임 단위 순환 상태를 유지하되 드문 long-range 정보를 정확히 재생성한다. (2) Dual-Branch Camera Control로 6-DoF 궤적의 거칠고 세밀한 모션을 coarse-to-fine으로 보정한다. (3) Two-Stage Generation으로 Stage-1의 하향 샘플링 손실을 보완하고 Stage-2에서 최종 영상 품질을 개선한다. (4) Robust Annotation Pipeline으로 공개 데이터에서 metric-scale 포즈를 안정적으로 회복하여 1분 영상 학습에 필요한 라벨 품질을 확보한다. 달라진 점: 한 대의 GPU에서 60초 720p를 구현할 수 있는 수준의 효율성을 확보하며, 36× 높은 처리량과 1분 롤아웃의 추천 워크플로우를 제시한다.

방법론

Progressive Training: Stage 1에서 Efficient VAE Adaptation으로 LTX2-VAE를 도입하고, Stage 2에서 Hybrid Architecture로의 적응, Stage 3에서 Minute-Scale 확장 및 6-DoF 액션 Conditioning 도입, Stage 4에서 Chunk-Causal Fine-Tuning 및 4-step Distillation을 수행한다. 2) Memory-Efficient Long-Context Modeling: background의 누적 선형(attention) 방식(참고: Eq. (1))에 기반한 ALA_t를 갱신하고, 키의 스케일링(K̂_t = K̄_t · (1/√(D·S)))으로 L2 정규화된 key의 에너지를 제어해 M_t의 스펙트를 1-에 가깝게 유지한다. 3) Dual-Branch Camera Control: Coarse Branch에서 Latent-frame UCPE로 글로벌 포즈를 다루고, Fine Branch에서 Raw-Frame Plücker Mixing으로 프레임 단위 모션을 보정한다. Q̃_i, K̃_i, Ṽ_i의 변환은 카메라 기하학 정보를 채널-그룹으로 분해 반영한다. 4) Second-Stage Refiner: Truncated-σ flow matching을 이용해 Stage-1 latent를 고품질 타깃으로 점진적으로 매핑하도록 학습하고, reference conditioning으로 영상의 일관성을 유지한다. 5) 데이터 파이프라인: SpatialVID-HQ, Sekai, MiraData, OmniWorld 등을 포함하는 213K 코퍼스를 구성하고 Pi3X/MoGe-2로 심도/스케일 보정 및 Intrinsics 최적화를 수행한다.

주요 결과

주요 벤치마크 결과: Simple-Trajectory Split에서 SANA-WM 2.6B의 720p 모델은 7.59의 RotErr, 1.59의 TransErr, VBench Overall 79.29, 51.1 GB 메모리 및 24.1 영상/시간의 Throughput를 달성하였다. SANA-WM + refiner의 720p 버전은 RotErr를 4.50°, TransErr를 1.39°로 감소시키고 Overall 80.62으로 상향하며, Throughput은 22.0 영상/시간으로 유사한 속도를 유지한다. Hard-Trajectory Split에서도 60초 간격에서 SANA-WM은 주된 벤치마크에서 우수한 카메라 추적 정확도와 안정성을 보였고, 720p 해상에서 60초 롤아웃의 시각 품질 역시 양호하였다. 재현성 측면에서 60초 벤치의 재방문 메모리(PSNR/SSIM/LPIPS) 및 ΔIQ(초기-후기 임상치)도 우수한 수준으로 나타났고, Refiner 도입으로 장기간 드리프트가 감소했다.

기술 상세

아키텍처 구성: 총 20개의 Transformer 블록, d_model=2240, heads=20. 15개의 프레임-단위 GDN 블록과 4개의 Softmax-attention 블록을 교차 배치하며, 각 블록에 UCPE + Plücker mixing 카메라 컨디셔닝이 포함된다. CP(Context-Parallel) 학습으로 961프레임 길이 단위의 시퀀스를 8-분할로 나누고 각 파티션의 상태를 prefix 합성으로 재구성한다. 메모리-효율화는 누적 선형(attention) 대신 frame-wise GDN을 도입하고, K를 1/√(D·S)로 스케일링한다. Dual-branch 방식은 Coarse Branch의 Ray-Local UCPE와 Fine Branch의 Raw-Frame Plücker Mixing으로 구성되며, Q/K/V의 벡터는 각 채널 그룹으로 분리해 기하학적 정보를 주입한다. 두 번째 스테이지 Refiner는 LTX-2 기반의 3DGS 보강 데이터로 학습되며, 3DGS 보강-정제 파이프라인과 DiFix3D Refine를 이용한다. 데이터 파이프라인은 SpatialVID-HQ, Sekai, MiraData, OmniWorld 등에서 수집된 213K 코퍼스에 Pi3X/MoGe-2를 적용한다. 학습은 64×H100에서 약 15일, Stage 3–4에서 Latent Sequence를 미리 계산하여 온라인 VAE 인코딩 비용을 제거한다. 4단계 distillation과 attention-sink를 도입하여 추론 시간을 줄이고, NVFP4 양자화를 적용한 경량 버전도 존재한다.

한계점

논문에서 명시적으로 다루는 한계로는 3D 씬 메모리의 명시적 저장이 없고, 동적 씬이나 드문 시점 뷰에서의 드리프트 가능성, 60초 길이의 한정된 롤아웃에 대한 일반화 한계가 있다. 데이터의 편향과 벤치마크 구성의 제약, 공개 소스의 품질 차이에 따른 재현성 이슈가 있다.

실무 활용

실용적 활용 측면에서 SANA-WM은 분 단위의 720p 카메라-제어 가능한 월드 모델을 단일 GPU에서 작동시키는 워크플로를 제공한다. Stage-1의 간략한 롤아웃으로 후보 경로를 탐색하고, Stage-2 Refiner를 통해 우수한 롤아웃을 선택적으로 향상시키는 것이 가능하다.

로봇 시뮬레이션 및 가상 테스트 환경에서의 1분간 연속 카메라 움직임 시나리오 생성
자체 게임 엔진/가상 세계의 3D 씬-기반 시나리오 합성 및 정책 검증
실험용 데이터 수집 대체: 거리/카메라 포즈 제약 하의 합성 데이터로 탐색 공간 확장
증강현실/가상 프로덕트 프로토타입에서의 카메라 경로 시나리오 확보

코드 공개 여부: 미확인

키워드

world modelGated DeltaNet (GDN)softmax attention6-DoF poseminute-scale video generationUCPEPlücker mixingPi3XMoGe-2LTX-2 VAE

추가 이미지 분석

Screenshot
데이터 소스 구성과 포맷, 포즈 주석의 품질 관리 흐름을 시각화한다.
Training data overview (Table 1) 및 데이터 소스 구성