핵심 요약
기존 3D 월드 생성 기술은 격자 형태의 레이아웃에 갇혀 있거나 객체 간의 크기 불균형 문제가 심각했다. Map2World는 사용자가 그린 임의 형상의 세그먼트 맵을 기반으로 일관성 있는 대규모 3D 환경을 생성하여 자율주행 시뮬레이션이나 게임 콘텐츠 제작의 효율성을 극대화한다.
왜 중요한가
기존 3D 월드 생성 기술은 격자 형태의 레이아웃에 갇혀 있거나 객체 간의 크기 불균형 문제가 심각했다. Map2World는 사용자가 그린 임의 형상의 세그먼트 맵을 기반으로 일관성 있는 대규모 3D 환경을 생성하여 자율주행 시뮬레이션이나 게임 콘텐츠 제작의 효율성을 극대화한다.
관련 Figure

입력된 세그먼트 맵과 텍스트 프롬프트에 따라 고층 빌딩이 밀집된 도심과 이를 둘러싼 숲이 끊김 없이 생성됨을 보여준다. 이는 모델이 복잡한 경계 조건에서도 높은 품질의 3D 환경을 구축할 수 있음을 시사한다.
Map2World를 통해 생성된 도시와 숲이 결합된 대규모 3D 월드 샘플
핵심 기여
유연한 세그먼트 맵 조건화
격자 구조에 국한되지 않고 사용자가 정의한 임의의 모양과 크기를 가진 세그먼트 맵으로부터 3D 월드를 생성한다.
일관된 디테일 강화 네트워크
전체적인 구조적 일관성을 유지하면서도 개별 자산에 정밀한 세부 묘사를 추가하는 Detail Enhancer를 도입했다.
도메인 일반화 성능 확보
사전 학습된 강력한 3D 자산 생성기인 TRELLIS의 Prior를 활용하여 제한된 데이터로도 다양한 도메인에서 견고한 생성 성능을 보여준다.
핵심 아이디어 이해하기
기존의 3D 생성 모델은 단일 객체를 생성하는 데 최적화되어 있어, 도시와 같은 거대한 환경을 만들 때 각 타일을 독립적으로 생성한 뒤 이어 붙이는 방식을 사용했다. 이 경우 타일 경계에서 도로가 끊기거나 건물의 크기가 제각각인 불연속성 문제가 발생한다. Map2World는 이를 해결하기 위해 3D 공간을 겹치는 윈도우로 나누고, 각 윈도우의 생성 과정을 공유된 잠재 공간(Latent Space)에서 통합하는 Latent Fusion 전략을 사용한다.
이 과정은 마치 여러 명의 화가가 하나의 큰 캔버스에서 서로의 그림을 확인하며 경계선을 맞추어 그리는 것과 같다. 특히 Rectified Flow 모델의 속도 필드(Velocity Field)를 가우시안 커널로 가중 평균하여 결합함으로써, 물리적으로 떨어진 영역이라도 하나의 일관된 맥락 안에서 생성되도록 유도한다.
결과적으로 사용자는 간단한 지도와 텍스트 설명만으로도 수 킬로미터에 달하는 일관된 3D 지형을 얻을 수 있으며, 이는 단순한 이미지 합성을 넘어 실제 3D 구조물들이 논리적으로 연결된 완성도 높은 가상 세계를 구축할 수 있게 한다.
방법론
전체 파이프라인은 2단계 생성 과정을 거친다. 첫 번째 단계에서는 사용자의 세그먼트 맵과 텍스트 프롬프트를 입력받아 전체 월드의 대략적인 기하학적 구조와 텍스트 정보를 담은 Structured Latent(SLAT)를 생성한다. 이때 Latent Fusion 전략을 사용하여 64x64x64 크기의 제한된 해상도를 가진 사전 학습 모델을 임의의 크기로 확장한다.
두 번째 단계는 Detail Enhancer 네트워크를 통한 해상도 업스케일링이다. 입력된 저해상도 잠재 변수 s^O와 인접한 큐브의 정보 s^Adj를 MLP 레이어 F_θ에 입력한다. [노이즈와 조건부 잠재 변수를 채널 축으로 결합 → MLP 연산 → 노이즈와 동일한 차원의 혼합 피처 출력] 과정을 거쳐 Flow Transformer에 전달함으로써 세밀한 텍스트와 구조를 복원한다.
또한 스케일 일관성을 위해 초기 노이즈 최적화(Initial Latent Optimization)를 수행한다. [타겟 마스크 M과 제약 조건 y 입력 → 선형 손실 함수 L_linear 계산 → 초기 노이즈 갱신] 과정을 통해 생성될 객체의 크기가 사용자의 의도에 부합하도록 제어한다. 최종적으로 3D Gaussian Splatting(3DGS) 표현법으로 디코딩하여 시각화한다.
관련 Figure

3D 잠재 공간에서 영역을 확장하는 (a) 과정과 해상도를 높이는 (b) 과정을 시각화한다. 특히 MLP 레이어와 Flow Transformer를 결합하여 세부 묘사를 추가하는 메커니즘을 명확히 설명한다.
공간 확장 및 디테일 강화를 포함한 전체 생성 파이프라인 다이어그램
주요 결과
제안된 모델은 기존 SOTA 모델인 SynCity 대비 월등한 성능을 기록했다. GPTscore 기반 평가에서 10점 만점에 7.93점을 기록하여 SynCity(7.48점)를 앞섰으며, 특히 새롭게 제안된 World Quality(WQ) 지표에서 7.76점을 기록해 구조적 완성도와 복잡성 측면에서 우위를 증명했다.
Ablation Study 결과, Detail Enhancer를 적용했을 때 PSNR이 22.08에서 22.53으로 향상되었으며 FID(Inception-v3)는 17.89에서 16.98로 낮아져 시각적 품질이 개선됨을 확인했다. 또한 Spectral Parameterization을 통한 노이즈 최적화는 단 5단계의 반복만으로 IoU 0.9 수준의 높은 기하학적 정확도를 달성했다.
기술 상세
Map2World는 TRELLIS의 Structured Latent(SLAT) 표현법을 계승한다. SLAT는 3D 그리드 위의 활성 복셀(Active Voxel)들에 기하와 외형 정보를 인코딩한 벡터 z_i를 할당하는 방식이다. 본 연구는 이 희소 구조(Sparse Structure)를 Rectified Flow 프레임워크 내에서 확장하기 위해 중첩된 윈도우 간의 속도 예측값 v_t를 가중 평균하는 수식을 도입했다.
Detail Enhancer는 사전 학습된 TRELLIS의 파라미터를 고정한 채 약 4%에 해당하는 MLP 레이어만을 파인튜닝하여 효율성을 높였다. 인접 큐브 간의 연속성을 위해 인접 잠재 변수를 조건으로 주입하며, 이때 발생하는 위치 인코딩의 불일치 문제를 해결하기 위해 삼선형 보간(Trilinear Interpolation)을 활용해 피처를 정렬한다. 이는 자산 생성기의 강력한 Prior를 유지하면서도 대규모 씬 생성 능력을 부여하는 핵심 차별점이다.
한계점
TRELLIS의 절대 위치 인코딩(Absolute Position Encoding) 방식을 그대로 사용하기 때문에, 작은 큐브들을 병합하는 과정에서 위치 정보가 왜곡되어 디코딩된 3D 구조가 미세하게 변할 수 있는 한계가 존재한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.