핵심 요약
기존 3D 생성 모델은 개별 물체 생성에 특화되어 넓은 배경을 만들 때 화질이 저하되거나 구조가 깨지는 한계가 있었다. 이 연구는 추가 학습 없이도 기존 모델의 잠재 공간을 확장하고 조각별로 생성하여, 도시나 마을 같은 대규모 장면을 고해상도로 재현하는 획기적인 방법론을 제시한다.
왜 중요한가
기존 3D 생성 모델은 개별 물체 생성에 특화되어 넓은 배경을 만들 때 화질이 저하되거나 구조가 깨지는 한계가 있었다. 이 연구는 추가 학습 없이도 기존 모델의 잠재 공간을 확장하고 조각별로 생성하여, 도시나 마을 같은 대규모 장면을 고해상도로 재현하는 획기적인 방법론을 제시한다.
핵심 기여
잠재 공간 확장 및 패치 기반 생성 기법
기존 고정 크기의 잠재 공간을 x, y축으로 확장하고 이를 겹치는 패치로 나누어 병렬 생성함으로써, 대규모 장면에서도 디테일 저하 없이 고해상도 3D 에셋을 생성한다.
Under-noising 기반의 반복적 SDEdit
단안 깊이 추정기로 얻은 불완전한 점구름의 빈 공간을 노이즈로 간주하여 채우는 Under-noising 기법을 도입해, 사진에 찍히지 않은 가려진 영역까지 자연스럽게 복원한다.
3D 인식 최적화 목적 함수 도입
생성 과정의 매 단계에서 점구름 구조와 입력 이미지의 텍스처 일관성을 맞추는 최적화(L_SS, L_SLAT)를 수행하여 기하학적 정확도와 시각적 품질을 동시에 확보한다.
핵심 아이디어 이해하기
기존 3D 생성 모델은 주로 물체 하나(Object-centric)를 생성하도록 설계되어 잠재 공간(Latent Space)의 크기가 고정되어 있다. 이로 인해 넓은 장면을 생성하려고 하면 해상도가 낮아지거나, 여러 물체가 복잡하게 얽힌 배경을 제대로 표현하지 못하는 한계가 발생한다.
Extend3D는 이 문제를 해결하기 위해 고해상도 이미지 생성에서 쓰이는 기법을 3D에 도입했다. 잠재 공간을 가로세로로 확장한 뒤, 이를 여러 개의 겹치는 패치(Overlapping Patches)로 나눈다. 각 패치에 대해 기존 3D 모델을 동시에 적용하되, 겹치는 부분의 정보를 서로 공유(Coupling)하여 경계선 없이 매끄러운 전체 장면을 만들어낸다.
또한 단순히 패치를 합치는 것에 그치지 않고 초기 구조를 잡기 위해 사진에서 깊이 정보(Depth)를 추출해 점구름(Point Cloud)을 만든다. 이 점구름의 빈틈을 노이즈로 취급해 채워 넣는 'Under-noising' 기법을 통해, 사진에 찍히지 않은 가려진 부분까지 자연스러운 3D 구조로 완성한다.
방법론
전체 파이프라인은 희소 구조 생성(Sparse Structure Generation)과 구조화된 잠재 변수 생성(Structured Latent Generation)의 두 단계로 구성된다. 먼저 입력 이미지에서 MoGe-2와 같은 깊이 추정기를 사용해 점구름을 추출하고 이를 복셀(Voxel) 그리드로 변환하여 초기 장면 구조를 설정한다.
확장된 잠재 공간 Z_t를 d라는 분할 계수를 가진 슬라이딩 윈도우를 통해 겹치는 패치들로 나눈다. 각 패치에 대해 독립적으로 벡터 필드 v_i,j를 계산한 후, 겹치는 영역에서 이들을 평균 내어 하나의 통합된 확장 벡터 v_t를 얻는다. [패치별 잠재 변수 입력 → 사전 학습된 모델의 벡터 필드 계산 → 겹침 영역 평균화 → 전체 장면의 변화량 결정] 과정을 통해 일관된 장면을 생성한다.
가려진 영역을 복원하기 위해 SDEdit에 Under-noising 개념을 도입한다. 초기 점구름의 불완전함을 노이즈로 간주하고, t_start > t_noise 설정을 통해 모델이 빈 공간을 더 공격적으로 채우도록 유도한다. 또한 매 단계마다 L_SS(구조 손실)와 L_SLAT(렌더링 손실)를 사용하여 생성된 결과가 입력 이미지 및 점구름과 일치하도록 가중치를 최적화한다.
주요 결과
인간 선호도 조사 결과, Extend3D는 기하학적 구조, 충실도, 외관, 완성도의 모든 항목에서 Trellis, Hunyuan3D, EvoScene 등 기존 최신 모델들을 압도했다. 특히 완성도 면에서 EvoScene 대비 87.1%의 승률을 기록하며 대규모 장면 생성 능력을 입증했다.
정량적 평가에서도 LPIPS(0.240), SSIM(0.611), PSNR(20.4) 등 모든 지표에서 가장 우수한 성능을 보였다. 특히 점구름과의 일치도를 나타내는 Chamfer Distance(CD)와 F-score에서 기존 모델들보다 월등히 높은 정확도를 나타냈다.
절제 연구(Ablation Study)를 통해 패치 분할 계수 d가 커질수록(더 많이 겹칠수록) 세부 묘사가 정교해지며, Under-noising 기법이 3D 완성도를 높이는 데 핵심적인 역할을 함이 확인됐다.
기술 상세
아키텍처는 Trellis와 같은 Latent Flow 모델을 기반으로 하며, 고정된 크기의 잠재 변수를 a x b 배 확장하여 대규모 장면을 수용한다. 패치 기반 생성 시 발생하는 물체 반복(Object Repetition) 문제를 해결하기 위해 Dilated Sampling 기법을 희소 구조 생성 단계에 적용했다.
수학적으로는 확장된 잠재 변수 Z_t에 대해 역매핑 함수 phi^-1를 사용하여 패치별 벡터를 전체 공간으로 투영하고, 이를 1_W(윈도우 가중치)로 나누어 정규화한다. [패치 벡터 합산 → 윈도우 중첩 횟수로 나누기 → 정규화된 전체 벡터 산출] 과정을 통해 패치 간 경계 불연속성을 제거한다.
최적화 단계에서는 Adam 옵티마이저를 사용하여 매 타임스텝마다 벡터 v_t를 미세 조정한다. L_SS는 시그모이드 함수를 거친 복셀 값이 점구름 위치에서 사라지지 않도록 강제하며, L_SLAT은 미분 가능한 렌더러를 통해 생성된 3D 장면의 2D 투영 결과와 원본 이미지 간의 LPIPS 및 SSIM 차이를 최소화한다.
한계점
가려진 영역의 복원이 때때로 불완전할 수 있으며, 대규모 장면 최적화 시 상당한 GPU 메모리가 요구된다. 또한 소실점(Vanishing Point)으로 인한 스케일 불일치 문제로 인해 거리 뷰(Street-level) 이미지에서는 성능이 제한적이다.
실무 활용
추가 학습 없이 기존 3D 모델을 활용해 대규모 장면을 생성할 수 있어, 게임 맵 제작이나 영화 배경 생성 등 콘텐츠 제작 분야에서 비용과 시간을 크게 절감할 수 있다.
- 구글 어스 이미지를 활용한 실제 도시의 3D 모델링
- 텍스트 프롬프트로 생성된 배경 이미지를 고해상도 3D 장면으로 변환
- 실내 인테리어 사진 한 장으로 전체 방 구조의 3D 에셋 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.