TL;DR
스파스 뷰 환경에서 3D 재구성은 다중 뷰 간 기하적 일관성에 크게 의존한다. VidSplat은 비디오 확산 priors를 활용해 입력 범위를 넘어서는 시점을 생성하고, Gaussian Splatting으로 고해상도 표면을 재구성하며, 단일 이미지에서의 확장도 가능하게 한다.
왜 중요한가
스파스 뷰 환경에서 3D 재구성은 다중 뷰 간 기하적 일관성에 크게 의존한다. VidSplat은 비디오 확산 priors를 활용해 입력 범위를 넘어서는 시점을 생성하고, Gaussian Splatting으로 고해상도 표면을 재구성하며, 단일 이미지에서의 확장도 가능하게 한다.
핵심 기여
Generative sparse-view reconstruction with video diffusion priors
희소 입력 뷰에서 비디오 diffusion priors를 활용해 3D 표면 재구성을 수행하고, 생성된 뷰를 재구성에 점진적으로 반영해 전체 장면을 회복한다.
Training-free, stage-wise denoising guided by geometry
렌더링된 RGB 및 마스크 이미지를 이용해 denoising 방향을 기하학적 구조로 안내하는 3단계(stage-wise) denoising 제어를 도입한다.
Visibility-based camera pose sampling and trajectory expansion
가시성 기반 카메라 포즈 샘플링으로 미커버 영역을 확장하는 궤적을 구성하고, 뷰 확장을 통해 보이지 않는 영역을 보충한다.
Confidence-weighted fusion and iterative reconstruction
샘플링된 뷰를 신뢰도(확신도) 기반 가중합으로 통합하고, 재구성을 반복적으로 개선해 고해상도 기하를 얻는다.
State-of-the-art sparse-view reconstruction and novel view synthesis
TNT, Replica, DL3DV 등 실제 벤치마크에서 희소 뷰 조건하의 표면 재구성과 새로운 시점 합성에서 SOTA 성능을 달성한다.
핵심 아이디어 이해하기
출발점: 다수의 뷰로 학습된 NeRF/3DGS는 희소 뷰에서 불완전한 기하를 드러낸다. 해결 원리: VidSplat은 영상 diffusion priors를 활용해 시퀀스 기반으로 샘플링된 뷰를 생성하고, 3D 기하를 마스크로 제어하는 stage-wise denoising으로 3D 일관성을 확보한다. 달라지는 점: 1) training-free로 geometry-guided denoising을 적용해 3D 구조를 안정적으로 보존하고, 2) 가시성 기반 샘플링으로 보이지 않는 영역까지 확장하여 완전한 3D 장면을 재구성한다. 실험적으로 5뷰에서도 완전한 표면 재구성 및 고해상도 novel view를 달성한다.
방법론
전체 접근 방식: 입력 뷰로부터 DUSt3R로 초기 3D 포인트 클라우드를 생성하고, 이를 바탕으로 2D Gaussian primitives를 초기화한 뒤, Gaussian 제 렌더링으로 새 뷰를 생성하고 비디오 확산 모델로 unseen 영역을 보충한다. 입력 뷰를 {V_input^t}로 두고, 생성된 뷰를 {V_gen^t}에 누적하여 {V_input^t+1}를 확장한다. 또한 Gaussian 학습 중 여러 refine 사이클에서 새로운 궤적을 샘플링하고 시퀀스를 생성하여 시야를 넓힌다.
관련 Figure

Initialization/Training 프레임워크의 흐름을 도식적으로 보여주며, 입력-생성-반복 재구성의 상호작용을 보강한다.
Optimization framework의 초기화 흐름 다이어그램

카메라 궤적 확장 및 뷰 선택의 흐름과 Pipeline의 구성 요소를 시각적으로 설명한다.
위치 기반 카메라 포즈 샘플링과 Gaussian을 이용한 뷰 확장 흐름

Eq.6~9의 흐름에서 렌더링 참조를 이용한 denoising 방향 제어의 구체적 구현을 보여준다.
Geometry-guided denoising 세부 흐름(Three-stage)
주요 결과
주요 벤치마크에서 성능이 향상된다. 1) Surface Reconstruction: Tanks and Temples(TNT) 및 Replica에서 CD↓, NC↑, F-Score↑가 기존 방법보다 우수하다(Ours: TNT CD 0.66, F-Score 12.80; Replica CD 0.06, NC 88.42, F-Score 80.79). 2) Novel View Synthesis: DL3DV 데이터셋에서 Indoor: PSNR 19.78, SSIM 0.699, LPIPS 0.292; Outdoor: PSNR 17.49, SSIM 0.561, LPIPS 0.376로 우수하다. 3) Video Generation: Full 모델의 PSNR 25.80, SSIM 0.847, LPIPS 0.238, FID 56.42, FVD 114.42로 타 모듁 대비 우수하다.
관련 Figure

이 그림은 5뷰 입력으로도 Ours가 완전한 장면 재구성과 새로운 시점 합성이 가능함을 직관적으로 보여주고, 기존 방법의 한계를 시연한다.
5-input-views와 Ours의 비교: 희소 입력에서의 대규모 장면 재구성과 전역 뷰 합성의 차이를 시각적으로 보여준다.

실제 재구성 결과를 비교해 Ours가 더 완전하고 자세한 기하를 보임을 시각적으로 증명한다.
DIFIX3D+ / GuidedVD / MAtCha / Ours의 표면 재구성 비교

그레이스케일 렌더링의 비교를 통해 재구성 품질의 우수성을 보강한다.
Replica 데이터셋에서의 재구성 비교

제시된 프레임들에서 Ground Truth에 가까운 시야를 생성하는 능력을 시각적으로 제시한다.
Reference Frame과 Generated Video의 비교 비주얼
기술 상세
아키텍처: DUSt3R로 초기 3D 포인트 클라우드 생성 → 2D Gaussians 초기화 → 2DGS로 새로운 뷰 렌더링 및 Diffusion 모델로 unseen 영역 inpainting → 생성 뷰 중 일부를 V_gen으로 추출하여 {V_input}에 합침. 학습 목표 L은 L_input + L_gen으로 구성되며, L_input은 L_c(photometric) + λ1 L_reg + λ2 L_n(Normals)이다. L_gen은 Laplacian 손실 L_lap과 L_reg, L_n을 포함하고, per-pixel 신뢰도 U를 곱해 적용한다. Geometry-guided denoising은 Eq.6~9로 구성된 three-stage 제어를 따른다: 6) x_T0 = (1−T0)x_ref^0 + T0ε; 7) x'_{t−1} = x_t − Δ_t v_θ(x_t, t, c); 8) x_t−1 = M(t) x_ref^{t−1} + (1−M(t)) x'^{t−1}; 9) M(t) 는 초기에는 마스크를 강하게 따르고, 중기에 완화하며, 마무리 단계에서 해제한다. 가시성 기반 샘플링은 입력 뷰의 시점 사이에서 시야를 확장하기 위한 궤적을 구상하고 D_i, M_i를 이용해 시야가 과도하게 벽면에 가려지지 않는지 확인한다. 노출 불균형을 보정하기 위해 BracketDiffusion을 사용해 훈련 뷰의 노출 일치를 개선할 수 있다.
실무 활용
VidSplat은 희소 입력에서 3D 재구성과 신 시점 합성을 훈련 없이 수행할 수 있어 대규모 장면의 디지털 트윈, AR/VR 콘텐츠 제작에 적용 가능하다.
- 실외/실내 대규모 공간의 3D 재구성 및 시점 확장 콘텐츠 생성
- 단일 이미지에서의 3D 재구성과 주변 영역 보충
- 희소 뷰 데이터로도 고품질 지오메트리 추정 및 렌더링
코드 공개 여부: 미확인
관련 Figure

단일 입력에서의 확장 가능성을 시각적으로 제시하며, single-view generation의 강건성을 보여준다.
1 Input View에서의 Ours 재구성 예시와 비교 프레임. 단일 뷰로도 확장 가능함을 강조한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.