실제 대도시 환경에 기반한 세계 시뮬레이션 모델의 그라운딩

왜 중요한가

기존 AI 세계 모델은 가상의 환경만 생성할 수 있었으나, 이 연구는 실제 도시의 지하철역, 건물 등 구체적인 장소를 반영한 시뮬레이션을 가능하게 함. 이는 자율주행 학습용 시나리오 생성이나 도시 계획 시각화 등 실생활과 밀접한 분야에 AI를 적용하는 중요한 전환점이 됨.

핵심 기여

Seoul World Model (SWM) 구축

실제 도시인 서울의 거리 뷰 데이터를 활용해 지리적 구조와 외관이 일치하는 비디오를 생성하는 최초의 도시 규모 세계 모델을 구축함.

Virtual Lookahead Sink 기법 적용

미래 위치의 거리 뷰 이미지를 동적 앵커로 활용하여 수 킬로미터 이상의 장거리 경로에서도 오차 누적 없이 안정적인 비디오 생성을 구현함.

Cross-temporal pairing 전략 수립

서로 다른 시점에 촬영된 참조 이미지와 대상 비디오를 쌍으로 학습시켜, 모델이 차량이나 행인 같은 일시적 객체 대신 영구적인 도시 구조에 집중하도록 유도함.

Intermittent freeze-frame 파이프라인 개발

드문드문 존재하는 거리 뷰 사진들 사이를 자연스럽게 연결하는 비디오 보간 기법을 통해 학습 데이터의 시간적 밀도 문제를 해결함.

핵심 아이디어 이해하기

기존 Video Diffusion Model은 이전 프레임을 바탕으로 다음 프레임을 예측하는 Autoregressive 방식을 취함. 하지만 이 과정에서 미세한 오차가 쌓이면 수백 미터만 지나도 원래 가려던 장소의 특징을 잃어버리고 엉뚱한 풍경을 그려내는 '표류(Drift)' 현상이 발생함.

SWM은 이를 해결하기 위해 Retrieval-Augmented Generation(RAG) 개념을 도입함. 생성하려는 위치 근처의 실제 거리 뷰 사진을 데이터베이스에서 검색해 모델에게 참조 정보로 제공함. 특히 'Virtual Lookahead Sink' 기법을 통해 현재 생성 중인 지점보다 조금 더 앞선 미래의 실제 사진을 미리 배치하여 모델이 가야 할 목적지를 명확히 인지하게 함.

또한 실제 거리 뷰 사진에는 촬영 당시의 차량이나 행인이 포함되어 있는데, 이를 그대로 학습하면 모델이 고정된 건물과 움직이는 물체를 구분하지 못함. SWM은 서로 다른 시간에 찍힌 사진들을 섞어서 학습시키는 'Cross-temporal pairing'을 통해 모델이 시간이 지나도 변하지 않는 건물의 기하학적 구조(Persistent structure)만을 참조하도록 유도함.

방법론

전체 아키텍처는 Cosmos-Predict2.5-2B 기반의 Diffusion Transformer(DiT)를 기반으로 하며, 3D VAE를 통해 비디오를 잠재 공간(Latent space)으로 압축하여 처리함. 사용자의 시작 위치, 카메라 궤적, 텍스트 프롬프트를 입력받아 77프레임 단위의 청크(Chunk)를 순차적으로 생성함.

Retrieval-Augmented Conditioning 메커니즘은 지리적 좌표를 기반으로 인근 거리 뷰를 검색함. 참조 이미지의 픽셀 좌표와 깊이 값(depth)이 주어질 때, Unproj 연산을 통해 3D 공간의 점으로 복원하고 이를 새로운 카메라 시점으로 다시 투영(Render)함. 이를 통해 서로 다른 위치에서 찍힌 사진을 현재 내가 보고 있는 화면의 구도로 변환하여 배경 지도로 활용할 수 있게 됨.

학습 데이터 구축을 위해 120만 장의 서울 파노라마 이미지를 수집하고, CARLA 시뮬레이터를 이용해 보행자 및 자유 카메라 궤적을 포함한 합성 데이터를 생성함. 특히 드문 거리 뷰 사이를 메우기 위해 특정 프레임을 4번 반복하여 3D VAE의 시간적 스트라이드와 일치시키는 'Intermittent freeze-frame' 전략을 사용해 일관된 비디오 보간 학습을 수행함.

주요 결과

부산(Busan-City-Bench)과 미국 앤아버(Ann Arbor-City-Bench) 데이터셋을 이용한 제로샷 평가에서 SWM은 기존 모델들보다 월등한 성능을 나타냄. 부산 벤치마크 기준 FID 28.43, FVD 301.76을 기록하며 시각적 품질과 시간적 일관성 모두에서 SOTA를 달성함.

카메라 궤적 추종 성능에서도 가장 낮은 오차를 기록함. 기존 모델들이 긴 경로에서 경로를 이탈하거나 화면이 뭉개지는 현상을 보인 반면, SWM은 1km 이상의 장거리 주행에서도 실제 도시 구조를 유지하며 안정적으로 비디오를 생성함이 확인됨.

Ablation study 결과, Virtual Lookahead Sink를 제거했을 때 FID가 25.13에서 37.37로 급격히 악화됨. 이는 미래 시점의 실제 이미지를 앵커로 사용하는 것이 장기적인 생성 안정성에 필수적임을 입증함.

실무 활용

실제 도시 데이터를 기반으로 한 고품질 시뮬레이션이 가능해짐에 따라 자율주행 시스템의 가상 테스트 환경 구축에 기여함. 또한 도시 계획 시각화나 위치 기반 게임 콘텐츠 제작 등 다양한 산업 분야에서 활용도가 높음.

자율주행 AI를 위한 실제 도시 기반의 엣지 케이스(사고 상황 등) 시나리오 생성
신축 건물이 들어선 후의 도시 경관 미리보기 및 도시 계획 시뮬레이션
특정 도시를 배경으로 하는 1인칭 탐험 게임 및 위치 기반 증강 현실 콘텐츠 제작

기술 상세

SWM은 28개의 블록과 16개의 어텐션 헤드를 가진 2B 파라미터 규모의 DiT 아키텍처를 기반으로 함. 3D VAE는 시간축으로 4배, 공간축으로 8배 압축을 수행하며, 16채널의 잠재 공간에서 연산이 이루어짐.

Virtual Lookahead Sink는 RoPE(Rotary Position Embedding)를 활용해 현재 생성 윈도우 너머의 미래 시점에 참조 이미지를 배치함. [history; target; sink] 형태로 구성된 토큰 시퀀스에서 sink 토큰은 모델이 미래의 특정 지점으로 수렴하도록 돕는 가이드 역할을 수행함.

카메라 포즈 인코딩에는 Plücker ray embedding을 사용함. 카메라 외부 파라미터(R, t)와 내부 파라미터(K)가 주어질 때, 각 픽셀에 대응하는 광선의 원점과 방향을 계산하여 6채널 Plücker ray map을 생성함. 이 맵은 컨볼루션 인코더를 거쳐 잠재 공간의 특징값으로 변환되며, 모델이 3D 공간에서의 시점 변화를 수치적으로 이해하는 기준이 됨.

학습 시에는 Teacher-Forcing과 Self-Forcing 기법을 혼합하여 노출 편향 문제를 완화함. 특히 추론 시에는 KV 캐시를 활용해 초당 15.2프레임(H100 GPU 기준)의 빠른 생성 속도를 확보함.

한계점

거리 뷰 데이터가 시간 간격이 아닌 거리 간격으로 캡처되기 때문에, 차량이 멈추거나 서행할 때 프레임 간 시간적 불연속성이 발생할 수 있음. 이로 인해 생성된 비디오에서 차량이 갑자기 나타나거나 사라지는 아티팩트가 관찰되기도 함.

키워드

World Model(세계 모델)Video Generation(비디오 생성)RAG(검색 증강 생성)Diffusion Transformer(디퓨전 트랜스포머)Autonomous Driving(자율주행)