핵심 요약
기존 비디오 리슈팅 기술은 복잡한 카메라 궤적에서 기하학적 왜곡이나 깜빡임 현상이 심했지만, Vista4D는 4D 포인트 클라우드를 활용해 실제 촬영 현장처럼 카메라 위치를 자유롭게 옮기면서도 일관된 영상을 생성한다. 이는 영화 제작이나 콘텐츠 편집 시 재촬영 없이도 다양한 앵글을 확보할 수 있게 하여 제작 비용과 시간을 획기적으로 줄여준다.
왜 중요한가
기존 비디오 리슈팅 기술은 복잡한 카메라 궤적에서 기하학적 왜곡이나 깜빡임 현상이 심했지만, Vista4D는 4D 포인트 클라우드를 활용해 실제 촬영 현장처럼 카메라 위치를 자유롭게 옮기면서도 일관된 영상을 생성한다. 이는 영화 제작이나 콘텐츠 편집 시 재촬영 없이도 다양한 앵글을 확보할 수 있게 하여 제작 비용과 시간을 획기적으로 줄여준다.
핵심 기여
4D 기반 포인트 클라우드 표현 방식
정적 픽셀 세그멘테이션과 4D 재구성을 결합하여 시간에 따라 변하지 않는 정적 배경을 명확히 구분하고, 이를 통해 새로운 카메라 궤적에서도 시각적 일관성을 유지한다.
노이즈가 포함된 다중 뷰 데이터 학습
실제 환경의 불완전한 깊이 추정값과 기하학적 아티팩트를 포함한 데이터를 학습에 활용하여, 완벽한 깊이 맵이 없는 실제 영상에서도 강건한 성능을 발휘한다.
소스 비디오 및 포인트 클라우드 동시 컨디셔닝
비디오 확산 모델에 포인트 클라우드 렌더링 결과뿐만 아니라 원본 소스 비디오를 함께 입력하여 기하학적 구조와 세부 질감을 동시에 보존한다.
다양한 실무 응용 시나리오 확장
단순한 시점 변경을 넘어 동적 장면 확장, 4D 장면 재구성, 메모리 기반의 장편 비디오 생성 등 실제 편집 워크플로우에 적용 가능한 기능을 제공한다.
핵심 아이디어 이해하기
기존의 비디오 생성 모델은 프레임 간의 관계를 Attention Mechanism으로 파악하지만, 카메라가 크게 움직일 때 3차원적인 공간 구조를 유지하는 데 한계가 있다. 특히 단안 비디오에서 추출한 깊이 정보는 오차가 크기 때문에 이를 기반으로 시점을 바꾸면 영상이 뭉개지거나 피사체의 형태가 변하는 문제가 발생한다.
Vista4D는 이 문제를 해결하기 위해 영상을 단순히 평면의 나열이 아닌 4D 포인트 클라우드, 즉 시간축이 포함된 3차원 입자들의 집합으로 변환한다. 먼저 영상 내에서 움직이지 않는 배경(Static Pixels)을 분리하여 고정된 3차원 좌표계에 배치함으로써 카메라가 이동하더라도 배경이 뒤틀리지 않도록 고정하는 닻(Anchor) 역할을 수행하게 한다.
여기에 비디오 확산 모델(Video Diffusion Model)을 결합하여 포인트 클라우드에서 부족한 세부 묘사와 가려졌던 영역을 채워넣는다. 단순히 기하학적 정보만 주는 것이 아니라 원본 영상의 픽셀 정보를 모델이 직접 참고하게 함으로써, 새로운 각도에서도 원래 인물의 외형이나 조명 상태가 어색함 없이 유지되도록 설계했다.
방법론
전체 시스템은 입력 비디오를 4D 포인트 클라우드로 변환하는 재구성 단계와 이를 바탕으로 새로운 영상을 생성하는 확산 모델 단계로 구성된다. 먼저 Grounded SAM 2를 사용하여 동적 객체와 정적 배경을 분리하고, 4D 재구성 기법을 통해 각 프레임을 세계 좌표계(World-space) 상의 포인트 클라우드 P로 투영한다.
[입력 영상의 픽셀 좌표와 깊이 값 → 역투영 및 좌표계 변환 연산 → 세계 좌표계 상의 3D 포인트 → 카메라 이동에도 변하지 않는 공간 정보 확보]
학습 단계에서는 Wan2.1-T2V-14B 모델을 기반으로 파인튜닝을 진행한다. 이때 포인트 클라우드 렌더링 결과(Xsrc→tgt)와 알파 마스크(Msrc→tgt), 그리고 원본 소스 비디오(Xsrc)를 잠재 공간(Latent Space)에서 결합하여 입력한다. 특히 실제 환경의 부정확한 깊이 정보를 모사하기 위해 노이즈가 섞인 다중 뷰 데이터를 학습 데이터셋에 포함시킨다.
[타겟 카메라의 위치 정보 → Plücker Embedding 변환 → 모델의 Self-Attention 블록에 주입 → 정확한 카메라 궤적 제어]
관련 Figure

테니스 라켓이 동적 객체로 분류되지 않아 포인트 클라우드에 잔상이 남는 상황에서도, Vista4D는 소스 비디오 정보를 참조하여 최종 출력물에서 해당 오류를 스스로 수정함을 입증한다.
세그멘테이션 실패 상황에서의 모델 강건성 테스트
주요 결과
실험 결과, Vista4D는 기존 SOTA 모델인 GEN3C, TrajectoryCrafter 등과 비교하여 카메라 제어 정확도와 3차원 일관성에서 압도적인 성능을 보였다. 특히 회전 오차(Rotation Error)는 4.647로 베이스라인 대비 가장 낮은 수치를 기록했으며, 재투영 오차(RE@SG) 또한 7.504로 기하학적 일관성이 뛰어남을 입증했다.
iPhone 데이터셋을 활용한 새로운 시점 합성 실험에서도 mPSNR 14.09, mLPIPS 0.461을 기록하며 시각적 품질 면에서 우위를 점했다. 사용자 평가(User Study) 결과에서도 소스 콘텐츠 보존(67.06%), 카메라 정확도(68.17%), 종합 화질(77.38%) 모든 항목에서 사용자들이 Vista4D의 결과를 가장 선호하는 것으로 나타났다.
관련 Figure

Vista4D가 기존 모델들(EX-4D, GEN3C 등)보다 인물의 형태를 더 잘 보존하고 배경의 왜곡이 적음을 보여준다. 특히 카메라가 뒤로 빠지는 Dolly-out 상황에서도 피사체의 일관성이 유지된다.
실제 단안 비디오를 입력받아 다양한 카메라 궤적으로 리슈팅한 결과 비교
기술 상세
Vista4D의 아키텍처는 DiT(Diffusion Transformer) 구조를 채택하고 있으며, 소스 비디오와 포인트 클라우드 렌더링을 프레임 차원에서 결합(Concatenation)하여 입력한다. 이는 Cross-Attention을 사용하는 방식보다 소스 영상의 세부 정보를 보존하는 데 더 효과적임이 Ablation Study를 통해 확인됐다.
장편 비디오 생성을 위해 메모리 기반 추론 방식을 도입했다. 49프레임 단위로 영상을 생성하면서, 새롭게 생성된 프레임의 정적 픽셀들을 다시 4D 포인트 클라우드에 등록(Registration)함으로써 긴 시간 동안 시점이 변하더라도 이전에 생성된 배경이 일관되게 유지되도록 관리한다.
카메라 제어를 위해 Plücker Embedding을 사용하며, 이는 제로 초기화(Zero-initialized)된 선형 레이어를 통해 모델에 주입된다. 이러한 설계는 사전 학습된 비디오 생성 모델의 능력을 해치지 않으면서도 정교한 카메라 궤적 정보를 학습할 수 있게 한다.
한계점
Vista4D는 다양한 실제 영상에서 강건한 성능을 보이지만, 4D 재구성 자체가 매우 부정확한 경우 모델이 이를 어디까지 따르고 어디까지 생성 모델의 사전 지식으로 보정할지 제어하는 기능이 부족하다. 또한 매우 복잡한 동적 움직임이 포함된 장면에서는 여전히 포인트 클라우드의 한계로 인한 아티팩트가 발생할 수 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.