TL;DR
단일 입력에서의 기하 추정치는 불완전하고 시점 변화에 취약하다. 반면 고해상도 appearance 정보는 기하와의 정합이 불안정하게 된다. MoCam은 diffusion 프로세스의 단계별로 기하-appearance 신호를 분리해 먼저 기하를 안정적으로 고정하고, 이후 appearance로 미세한 보정과 재구성을 수행한다. 이로써 sparse/오염된 점 구성을 가진 데이터에서도 기하-외관 분리된 일관된 뷰 합성이 가능해진다.
왜 중요한가
단일 입력에서의 기하 추정치는 불완전하고 시점 변화에 취약하다. 반면 고해상도 appearance 정보는 기하와의 정합이 불안정하게 된다. MoCam은 diffusion 프로세스의 단계별로 기하-appearance 신호를 분리해 먼저 기하를 안정적으로 고정하고, 이후 appearance로 미세한 보정과 재구성을 수행한다. 이로써 sparse/오염된 점 구성을 가진 데이터에서도 기하-외관 분리된 일관된 뷰 합성이 가능해진다.
핵심 기여
Stage-wise dual-conditioning diffusion
두 가지 conditioning(c_ren: scaffold, c_src: source)과 Tswitch를 도입해 초기에는 geometry를 고정하고 이후 appearance로 보정하는 순서를 확립한다. 이러한 시간적 분리는 기하 오류의 누적 및 상호 간섭을 억제한다.
Unified 3D/4D view synthesis framework
단일 이미지 3D reconstruction과 영상 기반 4D re-camera를 하나의 프레임워크로 다루며 모달리티에 독립적으로 작동하는 stage-wise 정책의 일반화를 보인다.
Robust geometry-appearance disentanglement
스캐폴드의 구멍/왜곡에 대한 초기 지오메트리 안정화와 후반 appearance에 의한 active 보정으로, 희박한 지오메트리에서도 geoemetric 일관성과 영상 텍스처를 모두 보장한다.
Strong empirical validation
OpenVid(OpenVid-1M 기반 벤치마크) 및 iPhone 데이터셋에서 TABLE 1/2/3의 수치와 Fig.4-9의 시각적 결과로 기존 방법 GEN3C, TrajCrafter, ReCam 대비 우수함을 보여준다.
핵심 아이디어 이해하기
단계별로 서로 다른 제약 신호를 순차적으로 활용하는 것이 핵심 원리이다. 초기에 scaffold 기반 지오메트리(anchor)를 사용해 글로벌 구조를 확립하고, 확산 프로세스의 뒤쪽에서 source 영상의 고해상도 appearance 정보를 사용해 남은 기하 오류를 보정하며 디테일을 강화한다. 이때 c(t)라는 시간 의존 conditioning은 타임스텝 t에 따라 c_ren(geometry)과 c_src(appearance) 중 하나를 선택하도록 설계되어, 일반적 지오메트리 문제에서도 구조-텍스처가 분리되어 안정적인 업데이트를 가능하게 한다. 이는 static한 정책으로 기하와 appearance를 한꺼번에 주입하는 방식의 한계를 극복하고, 3D/4D 뷰 합성에서의 오차 전이와 파손을 줄인다.
관련 Figure

논문 전체의 핵심 아이디어를 한눈에 보여주는 고수준 비교 그림이다. MoCam의 목표인 geometry-appearance 분리의 직관적 차이를 시각적으로 제시하며, 후속 실험에서의 정량적 우수성을 보완하는 시각적 증거로 작용한다.
Fig.1: MoCam의 비교 구성을 시각화한 모자이크 이미지. 입력 프레임과 여러 경쟁 방법의 3D/4D 재합성 결과를 나란히 비교한다.
방법론
전체 접근은 latent video diffusion에 기반한다. 먼저 source 비디오 x_src에서 깊이 d_src를 얻고, Φ^{-1}(x_src, d_src, K)를 통해 dynamic point cloud p를 구성한 뒤 target trajectory ψ_tgt에 따라 x_tgt_ren를 렌더한다. 이 scaffold 영상은 c_ren으로 인코딩되어 z_tgt_ren에 frame 차원으로 연결되며 초기 노이즈 z_0와 합쳐진다. 이때 f_θ는 타임스텝 t에 따라 c(t)로 주어진 conditioning을 받는데, Tswitch를 임의의 임계값(논문에서 0.85로 설정)에서 c(t)가 c_ren에서 c_src로 바뀌도록 한다. 이후 latent를 디코더 D에 통과시켜 x_tgt를 얻는다. 학습은 Wan2.2 비디오 확산 모델 위에 20k 데이터 쌍(MultiCamVideo)으로 수행되며, 깊이/카메라 추정에 ViPE를 사용하고 Tswitch를 0.85로 설정한다. (패널 구조) 단일 프레임 재구성 및 4D 재카메라를 모두 포괄하는 stage-wise conditioning이 핵심이다.
관련 Figure

제안하는 stage-wise conditioning의 구조를 설명하는 핵심 다이어그램으로, Early Stage에서 geometry anchoring, Later Stage에서 appearance Refinement로 넘어가는 흐름을 시각화한다.
Fig.2: MoCam 프레임워크의 개요 다이어그램. Scaffold와 Source Conditioning의 단계적 결합과 분리 과정을 보여준다.

Stage-wise conditioning의 변형(대안)을 시각적으로 비교하는 도표로, 본 논문의 주된 기여인 구조적 denoising dynamics의 이점을 구체적으로 보여준다.
Fig.3: 다중 조건화의 단계별 흐름을 보여주는 도식. Scaffold-Only/ Scaffold-Early/ Static-Both 등의 비교가 가능하도록 구성되어 있다.
주요 결과
주요 벤치마크에서 MoCam은 대체 방법 대비 우수한 성능을 보인다. 3D 재구성에서 VBench 지표의 구성요소 중 Perceptual Quality(IQ)에서 0.6961, FVD-V에서 255.16, CLIP-V에서 0.87, RotErr 1.35, TransErr 5.11을 달성했다. (GEN3C: 0.6909, 289.37, 0.80, 1.36, 5.12; TrajCrafter: 0.6700, 313.65, 0.79, 1.36, 5.11; ReCam: 0.5842, 355.26, 0.77, 2.13, 5.79) 4D 재카메라에서도 Ours (Wan2.1) 253.13의 FVD-V와 0.84 CLIP-V, RotErr 1.37, TransErr 5.11로 상위권을 차지한다. iPhone 다중뷰 데이터셋 평가에서 PSNR 14.60, SSIM 0.4581, LPIPS 0.4213, FVD 180.35로 GEN3C, TrajCrafter, ReCam 대비 우수합니다. ablation에서 Scaffold-Only는 IQ 0.4807로 심각한 품질 저하를 보이고, Scaffold-Early는 이후 세부 묘사에서 한계가 있으며, Static-Both는 회전/이동 오차가 증가하는 등 구조적 불안정성을 나타냅니다. 이러한 실험은 MoCam의 구조적 denoising dynamics가 기하-외관 간 충돌을 완화하고, 서로 다른 입력 모달리티에서 일반화 가능성을 갖음을 시사한다.
관련 Figure

다양한 모션 스케일에서의 이미지-시퀀스 품질 비교를 제공한다. 입력 대비 Ours의 품질 향상을 직관적으로 확인할 수 있어 본 논문의 실용적 이점을 보강한다.
Fig.7: iPhone 데이터셋에서의 다양한 모션 스케일에 대한 Qualitative 결과.
기술 상세
단계적 아키텍처: Latent video diffusion f_θ를 기반으로 z_t를 노이즈 수준과 conditioning c(t)에 따라 예측 학습한다. c(t)는 tswitch를 경계로 두 조건 c_ren(geometry scaffold)과 c_src(appearance source) 사이에 전환한다. 수식적 정의: c(t) = { c_ren if t > T_switch; c_src if t ≤ T_switch }. Scaffold 생성은 x_src의 깊이 d_src를 ViPE로 얻고, Φ^{-1}(x_src, d_src, K)로 동적 포인트 클라우드 p를 구성한 뒤 ψ_tgt에 따라 x_tgt_ren를 렌더한다. 이 scaffold는 초기 구조를 제공하나 disocclusion로 인한 구멍/왜곡이 있을 수 있으며, 후반 단계에서 c_src를 통해 이를 보정한다. VAE 인코더 E를 통해 x_tgt_ren과 x_src를 잠재 공간 z_tgt_ren, z_src로 인코딩하고, z0와 결합하여 z_tgt를 얻은 뒤 D로 디코딩한다. Tswitch은 0.85로 설정되며, 초기에는 geometry를 강하게 고정하고 나중에는 appearance를 보정한다. 학습은 Wan2.2 백본으로 수행되며, 20k 데이터 쌍(MultiCamVideo)을 이용한다. 깊이 추정의 불확실성에 따른 오차에 대해 stage-wise conditioning이 로버스트하게 작동한다.
관련 Figure

잠재 공간 기반 diffusion의 작동 원리와 조건 신호의 흐름을 시각화한다. Scaffold 인코딩, z0 결합, zt의 업데이트 및 최종 디코딩 과정이 한 화면에 요약되어 MoCam의 구현 세부를 보인다.
Fig.5: MoCam의 Latent 구성 및 VAE 인코더/디코더 흐름을 보여주는 스냅샷.
실무 활용
실무적으로 monocular 영상에서의 3D/4D 뷰 합성에 적용 가능하며, 불완전한 깊이 정보나 구멍이 많은 점 구성을 보정하는 데 강점이 있다.
- 단일 이미지/비디오 입력으로도 촬영 시나리오에 맞춘 가상 카메라 경로 생성
- 제작용 콘텐츠의 3D/4D 영상 합성 및 보정
- 모노큘러 입력에서의 기하-외관 불일치 문제 해결
- 깊이 추정 불완전성에 강건한 프레임 간 일관성 유지
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.