VidSplat: Geometry-Guided Video Diffusion Priors를 활용한 Gaussian Splatting 재구성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

스파스 뷰 환경에서 3D 재구성은 다중 뷰 간 기하적 일관성에 크게 의존한다. VidSplat은 비디오 확산 priors를 활용해 입력 범위를 넘어서는 시점을 생성하고, Gaussian Splatting으로 고해상도 표면을 재구성하며, 단일 이미지에서의 확장도 가능하게 한다.

왜 중요한가

스파스 뷰 환경에서 3D 재구성은 다중 뷰 간 기하적 일관성에 크게 의존한다. VidSplat은 비디오 확산 priors를 활용해 입력 범위를 넘어서는 시점을 생성하고, Gaussian Splatting으로 고해상도 표면을 재구성하며, 단일 이미지에서의 확장도 가능하게 한다.

핵심 기여

Generative sparse-view reconstruction with video diffusion priors

희소 입력 뷰에서 비디오 diffusion priors를 활용해 3D 표면 재구성을 수행하고, 생성된 뷰를 재구성에 점진적으로 반영해 전체 장면을 회복한다.

Training-free, stage-wise denoising guided by geometry

렌더링된 RGB 및 마스크 이미지를 이용해 denoising 방향을 기하학적 구조로 안내하는 3단계(stage-wise) denoising 제어를 도입한다.

Visibility-based camera pose sampling and trajectory expansion

가시성 기반 카메라 포즈 샘플링으로 미커버 영역을 확장하는 궤적을 구성하고, 뷰 확장을 통해 보이지 않는 영역을 보충한다.

Confidence-weighted fusion and iterative reconstruction

샘플링된 뷰를 신뢰도(확신도) 기반 가중합으로 통합하고, 재구성을 반복적으로 개선해 고해상도 기하를 얻는다.

State-of-the-art sparse-view reconstruction and novel view synthesis

TNT, Replica, DL3DV 등 실제 벤치마크에서 희소 뷰 조건하의 표면 재구성과 새로운 시점 합성에서 SOTA 성능을 달성한다.

핵심 아이디어 이해하기

출발점: 다수의 뷰로 학습된 NeRF/3DGS는 희소 뷰에서 불완전한 기하를 드러낸다. 해결 원리: VidSplat은 영상 diffusion priors를 활용해 시퀀스 기반으로 샘플링된 뷰를 생성하고, 3D 기하를 마스크로 제어하는 stage-wise denoising으로 3D 일관성을 확보한다. 달라지는 점: 1) training-free로 geometry-guided denoising을 적용해 3D 구조를 안정적으로 보존하고, 2) 가시성 기반 샘플링으로 보이지 않는 영역까지 확장하여 완전한 3D 장면을 재구성한다. 실험적으로 5뷰에서도 완전한 표면 재구성 및 고해상도 novel view를 달성한다.

방법론

전체 접근 방식: 입력 뷰로부터 DUSt3R로 초기 3D 포인트 클라우드를 생성하고, 이를 바탕으로 2D Gaussian primitives를 초기화한 뒤, Gaussian 제 렌더링으로 새 뷰를 생성하고 비디오 확산 모델로 unseen 영역을 보충한다. 입력 뷰를 {V_input^t}로 두고, 생성된 뷰를 {V_gen^t}에 누적하여 {V_input^t+1}를 확장한다. 또한 Gaussian 학습 중 여러 refine 사이클에서 새로운 궤적을 샘플링하고 시퀀스를 생성하여 시야를 넓힌다.

주요 결과

주요 벤치마크에서 성능이 향상된다. 1) Surface Reconstruction: Tanks and Temples(TNT) 및 Replica에서 CD↓, NC↑, F-Score↑가 기존 방법보다 우수하다(Ours: TNT CD 0.66, F-Score 12.80; Replica CD 0.06, NC 88.42, F-Score 80.79). 2) Novel View Synthesis: DL3DV 데이터셋에서 Indoor: PSNR 19.78, SSIM 0.699, LPIPS 0.292; Outdoor: PSNR 17.49, SSIM 0.561, LPIPS 0.376로 우수하다. 3) Video Generation: Full 모델의 PSNR 25.80, SSIM 0.847, LPIPS 0.238, FID 56.42, FVD 114.42로 타 모듁 대비 우수하다.

기술 상세

아키텍처: DUSt3R로 초기 3D 포인트 클라우드 생성 → 2D Gaussians 초기화 → 2DGS로 새로운 뷰 렌더링 및 Diffusion 모델로 unseen 영역 inpainting → 생성 뷰 중 일부를 V_gen으로 추출하여 {V_input}에 합침. 학습 목표 L은 L_input + L_gen으로 구성되며, L_input은 L_c(photometric) + λ1 L_reg + λ2 L_n(Normals)이다. L_gen은 Laplacian 손실 L_lap과 L_reg, L_n을 포함하고, per-pixel 신뢰도 U를 곱해 적용한다. Geometry-guided denoising은 Eq.6~9로 구성된 three-stage 제어를 따른다: 6) x_T0 = (1−T0)x_ref^0 + T0ε; 7) x'_{t−1} = x_t − Δ_t v_θ(x_t, t, c); 8) x_t−1 = M(t) x_ref^{t−1} + (1−M(t)) x'^{t−1}; 9) M(t) 는 초기에는 마스크를 강하게 따르고, 중기에 완화하며, 마무리 단계에서 해제한다. 가시성 기반 샘플링은 입력 뷰의 시점 사이에서 시야를 확장하기 위한 궤적을 구상하고 D_i, M_i를 이용해 시야가 과도하게 벽면에 가려지지 않는지 확인한다. 노출 불균형을 보정하기 위해 BracketDiffusion을 사용해 훈련 뷰의 노출 일치를 개선할 수 있다.

실무 활용

VidSplat은 희소 입력에서 3D 재구성과 신 시점 합성을 훈련 없이 수행할 수 있어 대규모 장면의 디지털 트윈, AR/VR 콘텐츠 제작에 적용 가능하다.

실외/실내 대규모 공간의 3D 재구성 및 시점 확장 콘텐츠 생성
단일 이미지에서의 3D 재구성과 주변 영역 보충
희소 뷰 데이터로도 고품질 지오메트리 추정 및 렌더링

코드 공개 여부: 미확인

키워드

Gaussian Splattingvideo diffusion priorssparse-view reconstruction3D consistent generationstage-wise denoisinggeometry-guided diffusioncamera trajectoriesconfidence-weighted fusion