핵심 요약
기존 3D 생성 모델은 단일 물체 생성에 특화되어 넓은 마을이나 도시 풍경을 만들 때 해상도가 낮아지거나 구조가 깨지는 한계가 있었다. Extend3D는 추가 학습 없이도 기존 모델의 잠재 공간을 확장하고 조각별로 생성하여, 고해상도의 대규모 3D 장면을 일관성 있게 제작할 수 있는 새로운 방법론을 제시했다.
왜 중요한가
기존 3D 생성 모델은 단일 물체 생성에 특화되어 넓은 마을이나 도시 풍경을 만들 때 해상도가 낮아지거나 구조가 깨지는 한계가 있었다. Extend3D는 추가 학습 없이도 기존 모델의 잠재 공간을 확장하고 조각별로 생성하여, 고해상도의 대규모 3D 장면을 일관성 있게 제작할 수 있는 새로운 방법론을 제시했다.
핵심 기여
잠재 공간 확장 및 패치 기반 생성 메커니즘
객체 중심 3D 모델의 고정된 잠재 공간을 x, y 축으로 확장하고 이를 겹치는 패치 단위로 나누어 병렬 생성함으로써, 해상도 저하 없이 대규모 장면을 구현했다.
Under-noising 기반의 반복적 SDEdit 기법
단안 깊이 추정기로 얻은 포인트 클라우드의 가려진 영역을 채우기 위해, 노이즈 주입량보다 모델 인지 시점을 늦게 설정하여 기존 구조를 보존하며 세부 사항을 생성하는 기법을 도입했다.
3D 인식 최적화 목적 함수 제안
생성 과정의 각 단계에서 포인트 클라우드와 입력 이미지의 정렬을 유지하기 위해 Sparse Structure(SS) 및 Structured Latent(SLAT) 최적화 손실 함수를 설계하여 기하학적 정확도를 높였다.
추가 학습이 필요 없는 범용 파이프라인
대규모 장면 데이터셋에 대한 추가 학습 없이도 Trellis나 Hunyuan3D와 같은 기존 사전 학습 모델을 그대로 활용하여 고품질의 3D 마을 생성을 가능하게 했다.
핵심 아이디어 이해하기
딥러닝 기반 3D 생성 모델은 대개 고정된 크기의 Latent Space(잠재 공간)를 사용한다. 이는 마치 정해진 크기의 도화지에 그림을 그리는 것과 같아서, 도화지보다 훨씬 큰 마을 전체를 그리려고 하면 세부 묘사가 뭉개지거나 해상도가 낮아지는 문제가 발생한다. 기존에는 이를 해결하기 위해 장면을 이어 붙이는 방식을 썼으나 경계면이 어색해지는 문제가 있었다.
Extend3D는 이 문제를 해결하기 위해 잠재 공간 자체를 물리적으로 확장하고, 이를 여러 개의 겹치는 Patch(패치)로 나눈다. 각 패치는 독립적으로 생성되지만, 겹치는 영역에서 정보를 공유하며 서로의 형태를 맞춘다. 이는 고해상도 이미지 생성에서 검증된 MultiDiffusion 기법의 원리를 3D 공간으로 확장하여 전체 장면의 일관성을 확보한 것이다.
또한, 한 장의 사진만으로는 건물 뒤편처럼 가려진 영역을 알 수 없다는 한계를 극복하기 위해 'Under-noising' 개념을 도입했다. 이는 기초 뼈대에 노이즈를 의도적으로 적게 섞어 기존의 확실한 구조는 유지하면서, 모델이 비어 있는 부분만 자연스럽게 상상해서 채워 넣도록 유도하는 방식이다. 이를 통해 단일 이미지로부터 보이지 않는 부분까지 포함된 완결성 높은 3D 장면을 얻을 수 있다.
방법론
전체 파이프라인은 Sparse Structure(SS) 생성과 Structured Latent(SLAT) 생성의 두 단계로 구성된다. 먼저 입력 이미지에서 MoGe-2를 통해 포인트 클라우드를 추출하고 이를 Voxel(복셀) 형태의 점유 그리드로 변환하여 초기 구조를 설정한다.
확장된 잠재 공간을 처리하기 위해 Overlapping Patch-wise Flow를 적용한다. 확장된 잠재 변수 Zt를 슬라이딩 윈도우 방식으로 패치화하고, 각 패치별로 벡터 필드 v를 계산한 뒤 이를 다시 합쳐 전체 장면을 갱신한다. [패치별 잠재 변수 입력 → 사전 학습된 모델의 Flow 연산 → 패치별 벡터 출력 → 가중 평균 결합 → 전체 장면의 갱신 방향 결정]
가려진 영역을 복구하기 위해 반복적 SDEdit 과정을 수행한다. 이때 노이즈 주입 시점보다 모델이 인지하는 시점을 늦게 설정하는 Under-noising 기법을 사용한다. [초기 구조에 t_noise만큼의 노이즈 주입 → 모델은 이를 t_start 수준의 노이즈로 인식 → 더 강한 복원력 발휘 → 비어 있는 기하학적 구조 보간]
생성 과정 중 3D-aware Optimization을 수행한다. SS 단계에서는 포인트 클라우드가 사라지지 않도록 Binary Cross-entropy 기반의 손실 함수를 사용하고, SLAT 단계에서는 렌더링된 이미지와 원본 이미지 사이의 LPIPS 및 SSIM 손실을 계산한다. [잠재 변수에서 3D 표현 렌더링 → 입력 이미지와 비교 → 오차 계산 → 잠재 변수의 궤적 수정]
주요 결과
Human Preference 조사 결과, Extend3D는 Trellis, Hunyuan3D, EvoScene 등 기존 최신 모델 대비 기하학적 정확도, 충실도, 외관, 완결성 모든 항목에서 우위를 점했다. 특히 대규모 장면에 특화된 EvoScene 대비 모든 지표에서 87% 이상의 승률을 기록하며 압도적인 시각적 품질을 증명했다.
정량적 평가에서도 100개의 다양한 장면 이미지에 대해 LPIPS 0.240, SSIM 0.611, PSNR 20.4를 기록하며 대조군 중 가장 높은 이미지 재구성 품질을 보였다. 기하학적 오차를 측정하는 Chamfer Distance(CD)에서도 0.0086으로 가장 낮은 수치를 기록하여 실제 지형 구조를 가장 정확하게 복원함을 확인했다.
Ablation Study를 통해 패치 분할 계수 d가 커질수록(더 세밀하게 나눌수록) 지표가 개선됨을 확인했다. 또한 Under-noising 기법을 적용했을 때 F-score가 0.680으로 가장 높게 나타나, 일반적인 SDEdit 방식보다 가려진 영역의 구조적 완성도를 높이는 데 결정적인 역할을 함이 입증됐다.
기술 상세
본 연구는 사전 학습된 Flow-matching 기반 3D 생성 모델을 활용하여, 학습 시 정의된 고정 해상도 이상의 장면을 생성하는 프레임워크를 제안한다. 핵심은 Latent Space의 공간적 확장과 MultiDiffusion 스타일의 패치 결합 메커니즘을 3D 도메인에 이식한 것이다.
Sparse Structure(SS) 단계에서는 복셀 기반의 잠재 변수를 사용하며, Structured Latent(SLAT) 단계에서는 세트 기반(Set-based) 잠재 표현을 사용한다. 각 단계의 Denoising 과정에서 패치 간의 경계면 불연속성을 해결하기 위해 Overlapping 영역의 벡터 필드를 가중 평균화하는 전략을 취한다.
Under-noising 기법은 SDEdit의 변형으로, 실제 주입된 노이즈 양보다 모델이 인지하는 시점을 늦게 설정함으로써 모델이 입력된 구조적 Prior를 더 강하게 신뢰하면서도 결여된 부분을 생성하도록 유도하는 수학적 트릭이다.
최적화 과정에서 사용되는 L_SS는 포인트 클라우드가 존재하는 위치의 복셀 점유 확률을 높이는 방향으로 작동하며, L_SLAT은 Differentiable Renderer를 통해 투영된 2D 이미지와 원본 간의 Perceptual Loss를 최소화하여 텍스처 일관성을 강제한다. 이는 객체 중심 모델이 장면 전체의 맥락에서 벗어나는 것을 방지한다.
한계점
가려진 영역의 완성이 때때로 불완전할 수 있으며(예: 복잡한 실내 구조), SLAT 최적화 과정에서 대규모 장면의 경우 상당한 GPU 메모리 자원이 소모된다. 또한 소실점이 매우 뚜렷한 거리 뷰(Street-level) 이미지에서는 x, y 좌표 스케일 불일치로 인해 성능이 제한될 수 있다.
실무 활용
별도의 추가 학습 없이 기존 3D 생성 모델의 성능을 확장할 수 있어, 게임 리소스 제작이나 가상 환경 구축 비용을 획기적으로 절감할 수 있는 실무적 가치가 높다.
- 항공 사진이나 구글 어스 캡처를 활용한 도시 디지털 트윈 자동 생성
- 단일 컨셉 아트 이미지를 기반으로 한 오픈월드 게임 배경 3D 모델링
- 실내 사진 한 장으로부터 가구 배치를 포함한 정밀한 3D 인테리어 복원
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.