VOID: 비디오 객체 및 물리적 상호작용 삭제 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 비디오 객체 제거 기술은 배경 인페인팅에는 능숙하지만 삭제된 객체와 다른 사물 간의 물리적 상호작용을 수정하지 못하는 한계가 있다. VOID는 이러한 복잡한 시나리오에서 물리적으로 타당한 결과를 생성하기 위해 설계된 새로운 프레임워크이다. 이 시스템은 Kubric과 HUMOTO를 활용해 생성한 반사실적 데이터셋으로 학습되었으며, 시각-언어 모델(VLM)을 통해 영향받는 영역을 식별한다. 이후 비디오 확산 모델을 가이드하여 물리적으로 일관된 장면 역학을 생성함으로써 기존 방식보다 뛰어난 편집 품질을 보여준다. 비디오 편집 모델이 단순한 픽셀 수정을 넘어 세계의 물리 법칙을 시뮬레이션하는 방향으로 발전할 수 있음을 시사한다.

배경

Video Inpainting, Diffusion Models, Vision-Language Models (VLM), Counterfactual Reasoning

대상 독자

비디오 생성 및 편집 AI를 연구하는 컴퓨터 비전 엔지니어 및 연구원

의미 / 영향

이 연구는 비디오 편집 AI가 단순한 이미지 합성 도구를 넘어 물리적 세계의 인과 관계를 시뮬레이션하는 모델로 진화하고 있음을 보여준다. 특히 자율주행이나 로봇 공학에서 가상 시나리오를 생성할 때 물리적으로 정확한 비디오 데이터를 생성하는 데 기여할 수 있다.

섹션별 상세

기존의 비디오 인페인팅 방식은 그림자나 반사 같은 외관상의 결함은 잘 처리하지만 객체 간의 물리적 충돌과 같은 고차원적 상호작용 수정에는 실패한다. 객체가 사라졌음에도 불구하고 남아있는 다른 객체가 마치 충돌한 것처럼 움직이는 물리적 모순이 발생하기 때문이다. VOID는 이러한 문제를 해결하기 위해 삭제된 객체의 영향을 받는 주변 영역까지 재구성하는 접근 방식을 취한다. 이를 통해 객체 제거 후에도 장면 전체의 물리적 개연성을 유지한다.

물리적으로 일관된 학습을 위해 Kubric과 HUMOTO 엔진을 결합하여 새로운 반사실적 객체 제거 데이터셋을 구축했다. 이 데이터셋은 특정 객체가 존재할 때와 존재하지 않을 때의 물리적 상호작용 변화를 쌍으로 포함하여 모델이 인과 관계를 학습하도록 돕는다. 단순히 배경을 채우는 것이 아니라 객체 부재 시의 물리적 결과물을 예측하도록 훈련되는 것이 핵심이다. 이러한 데이터 기반 접근은 합성 데이터와 실제 데이터 모두에서 모델의 일반화 성능을 높인다.

추론 과정에서 시각-언어 모델(VLM)을 활용하여 삭제된 객체에 의해 물리적으로 영향을 받는 장면 내 영역을 정밀하게 식별한다. 식별된 영역 정보는 비디오 확산 모델의 생성 과정을 가이드하는 마스크나 조건으로 사용된다. 확산 모델은 이 가이드를 바탕으로 물리 법칙에 어긋나지 않는 새로운 비디오 프레임을 생성하여 자연스러운 장면 전환을 완성한다. 결과적으로 삭제된 객체와 상호작용했던 다른 객체들의 움직임이 물리적으로 타당하게 수정된다.

실무 Takeaway

비디오 편집 시 단순 객체 제거를 넘어 충돌이나 접촉 같은 물리적 상호작용의 모순을 해결하려면 장면 내 인과 관계를 이해하는 모델 설계가 필수적이다.
Kubric과 HUMOTO 같은 물리 엔진 기반의 합성 데이터셋을 활용하면 실제 환경에서 얻기 힘든 반사실적 시나리오에 대한 학습 데이터를 효과적으로 확보할 수 있다.
VLM을 활용한 영역 식별과 확산 모델의 가이드 생성 방식을 결합하면 복잡한 비디오 편집 작업에서도 높은 물리적 일관성을 달성할 수 있다.

언급된 리소스

논문VOID: Video Object and Interaction Deletion (arXiv:2604.02296)