핵심 요약
기존 비디오 생성 모델은 시각적으로는 그럴듯하지만 실제 세계의 지리적 구조를 정확히 반영하지 못하는 한계가 있었다. CityRAG는 대규모 지리 정보 데이터셋을 활용하여 실제 도시의 건물과 도로 구조를 유지하면서도 날씨나 조명 같은 가변적 요소만 자유롭게 조절할 수 있는 기술적 토대를 마련했다.
왜 중요한가
기존 비디오 생성 모델은 시각적으로는 그럴듯하지만 실제 세계의 지리적 구조를 정확히 반영하지 못하는 한계가 있었다. CityRAG는 대규모 지리 정보 데이터셋을 활용하여 실제 도시의 건물과 도로 구조를 유지하면서도 날씨나 조명 같은 가변적 요소만 자유롭게 조절할 수 있는 기술적 토대를 마련했다.
핵심 기여
공간적으로 접지된 비디오 생성 프레임워크
실제 지리 정보가 등록된 Street View 데이터를 검색 엔진처럼 활용하여 생성 과정에 주입함으로써 실제 세계의 물리적 위치와 일치하는 비디오를 생성한다.
정적 요소와 동적 요소의 의미론적 분리 학습
동일 장소의 서로 다른 시간대 영상을 쌍으로 학습하여 건물, 도로와 같은 정적 기하 구조와 날씨, 차량, 보행자 같은 가변적 속성을 분리하여 제어한다.
장기 일관성을 갖춘 자율 주행 시뮬레이션
사용자가 정의한 복잡한 경로를 따라 수천 프레임 이상의 비디오를 생성하며, 출발지로 돌아왔을 때 지형이 일치하는 Loop Closure를 성공적으로 수행한다.
관련 Figure

실제 파리, 산후안, 호놀룰루의 지형을 바탕으로 생성된 비디오 프레임을 보여준다. 건물과 도로는 실제와 동일하게 유지하면서 날씨와 조명만 변경할 수 있음을 시각적으로 증명한다.
CityRAG의 전반적인 비디오 생성 결과와 주요 특징(지리적 접지, 일관성, 제어 가능성)을 보여주는 요약 이미지
핵심 아이디어 이해하기
기존의 Image-to-Video(I2V) 모델은 첫 프레임의 시각적 정보에만 의존하기 때문에 카메라가 회전하거나 멀리 이동하면 보이지 않던 영역을 상상해서 채워 넣는 '환각(Hallucination)' 현상이 발생한다. 이는 Transformer 기반 모델이 학습 데이터의 통계적 확률에만 의존하여 다음 프레임을 예측하기 때문에 발생하는 근본적인 한계이다.
CityRAG는 이 문제를 해결하기 위해 Retrieval-Augmented Generation(RAG) 개념을 비디오 생성에 도입했다. 모델이 다음 장면을 생성하기 전에 외부 데이터베이스에서 해당 좌표의 실제 Street View 이미지를 검색하여 '메모리'로 활용한다. 이때 Cross-Attention 메커니즘을 통해 현재 생성 중인 프레임이 검색된 실제 지형 정보를 참조하도록 강제한다.
결과적으로 모델은 건물의 위치나 도로의 형태 같은 변하지 않는 '정적 구조'는 검색된 데이터에서 가져오고, 햇빛의 방향이나 움직이는 사람 같은 '동적 요소'는 첫 프레임의 스타일을 유지하며 생성한다. 이를 통해 수 분 동안 이동하더라도 지리적 왜곡 없이 실제 도시를 걷는 듯한 일관된 비디오를 얻을 수 있다.
관련 Figure

서로 다른 시간대에 촬영된 동일 장소의 영상을 비교 학습함으로써 모델이 날씨나 차량 같은 가변적 요소(빨간 박스)를 무시하고 건물과 도로 같은 정적 요소(초록 박스)만 추출하는 원리를 설명한다.
지리적으로는 일치하지만 시간적으로 다른 두 경로 데이터를 활용한 학습 데이터 파이프라인 다이어그램
방법론
CityRAG는 Wan 2.1 (14B) 모델을 기반으로 하며, 세 가지 주요 조건 입력을 처리하도록 설계되었다. 첫 번째는 장면을 초기화하는 First Image, 두 번째는 4x4 Extrinsic Matrix 리스트로 정의된 Trajectory, 세 번째는 검색된 지리 정보인 Geospatial Conditioning이다.
Trajectory Conditioning은 카메라의 상대적 포즈 정보를 Conv1D와 MLP를 거쳐 각 DiT(Diffusion Transformer) 블록의 출력에 Residual 방식으로 더해진다. [카메라 행렬 입력 → 시간축 다운샘플링 및 차원 투영 → DiT 블록 출력과 합산 → 카메라 움직임에 따른 뷰 변화 유도] 과정을 통해 물리적으로 정확한 시점 변화를 구현한다.
Geospatial Conditioning은 검색된 여러 시점의 이미지를 VAE로 인코딩한 후, 별도의 Attention 블록을 통해 주입된다. [검색된 이미지들 → VAE 잠재 공간 투영 → Cross-Attention의 Key/Value로 사용 → 생성 중인 쿼리 프레임이 지형 정보를 참조]하는 구조를 취한다. 특히 학습 시 의도적으로 시간적으로 정렬되지 않은(Temporally Unaligned) 데이터를 사용하여 모델이 픽셀 단위 복사가 아닌 의미론적 지형 구조를 추출하도록 유도한다.
주요 결과
CityRAG는 PSNR 15.03, SSIM 0.466, FID 16.55를 기록하며 모든 지표에서 기존 SOTA 모델인 Gen3C 및 AnyV2V를 크게 앞질렀다. 특히 정적 구조의 정확도를 측정하는 PSNR-S 지표에서 15.86을 기록하여 지리적 재구성 능력이 탁월함을 입증했다.
사용자 평가(User Study) 결과에서도 '첫 프레임과의 연속성'과 '실제 위치 재구성 충실도' 두 항목 모두에서 가장 높은 점수를 받았다. 기존 모델들이 회전 구간에서 구조가 붕괴되는 것과 달리, CityRAG는 180도 및 360도 회전 시에도 세부 텍스처와 지형지물을 정확하게 렌더링하는 것으로 나타났다.
관련 Figure

회전 구간이나 복잡한 지형에서 기존 모델들은 구조가 뭉개지거나 첫 프레임을 단순히 복사하는 반면, CityRAG는 실제 지형 구조를 유지하며 정확한 렌더링을 수행함을 보여준다.
CityRAG와 기존 베이스라인 모델들(AnyV2V, Gen3C)의 생성 결과 비교표

CityRAG가 시각적 품질뿐만 아니라 실제 장소를 얼마나 정확하게 재현하는지(y축)와 첫 이미지에서 얼마나 자연스럽게 이어지는지(x축) 측면에서 타 모델 대비 압도적인 성능을 보임을 나타낸다.
첫 프레임과의 연속성 및 물리적 장소 재구성 충실도에 대한 사용자 평가 결과 그래프
기술 상세
아키텍처는 Spatio-temporal VAE와 DiT 기반 확산 모델로 구성된다. 핵심 차별점은 'Geospatial Memory'를 주입하기 위해 기존 Self-Attention 블록을 복제하여 별도로 학습시킨 전용 Attention 레이어이다. 이는 사전 학습된 비디오 생성 능력을 보존하면서도 외부 지형 정보를 유연하게 통합할 수 있게 한다.
학습 데이터셋은 전 세계 10개 도시에서 수집된 550만 개의 Street View 파노라마를 활용했다. 학습 시 v-prediction 목적 함수를 사용했으며, 노이즈 스케줄을 높은 타임스텝(t > 900)으로 시프트하여 시각적 품질을 개선했다. 최적화에는 Muon 옵티마이저를 사용해 32개의 A100 GPU에서 약 일주일간 학습을 진행했다.
한계점
현재 CityRAG는 이전 샘플의 마지막 프레임을 다음 샘플의 첫 프레임으로 사용하는 단순한 Autoregressive 방식을 사용하므로 아주 긴 영상에서는 장기적 일관성이 다소 저하될 수 있다. 또한 학습 데이터의 편향으로 인해 야간이나 눈이 오는 날씨에 대한 생성 능력이 제한적이며, 텍스트 프롬프트를 통한 세밀한 제어 기능은 아직 통합되지 않았다.
실무 활용
실제 세계를 기반으로 한 고충실도 시뮬레이션이 필요한 자율 주행 및 로보틱스 분야에서 즉시 활용 가능하다.
- 자율 주행 AI 학습을 위한 희귀 기상 조건(폭설, 폭우) 시뮬레이션 데이터 생성
- 실제 도시 지형을 기반으로 한 가상 관광 및 오픈 월드 게임 환경 구축
- 특정 공장이나 창고 환경을 복제하여 로봇의 경로 계획 및 장애물 회피 테스트
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.