핵심 요약
기존 비디오 객체 제거 기술은 물체 자체는 잘 지우지만 그 물체가 남긴 그림자나 반사 광원을 처리하지 못해 부자연스러운 결과물을 만들었다. 이 논문은 객체 제거와 삽입을 동시에 학습하는 새로운 방식과 대규모 전용 데이터셋을 통해, 복잡한 시각적 효과까지 흔적 없이 지워내는 기술적 도약을 이뤄냈다.
왜 중요한가
기존 비디오 객체 제거 기술은 물체 자체는 잘 지우지만 그 물체가 남긴 그림자나 반사 광원을 처리하지 못해 부자연스러운 결과물을 만들었다. 이 논문은 객체 제거와 삽입을 동시에 학습하는 새로운 방식과 대규모 전용 데이터셋을 통해, 복잡한 시각적 효과까지 흔적 없이 지워내는 기술적 도약을 이뤄냈다.
핵심 기여
VOR 데이터셋 구축
실제 촬영 데이터와 3D 합성 데이터를 결합하여 6만 쌍의 고품질 비디오 쌍을 포함하는 대규모 데이터셋을 구축했다. 이는 기존 데이터셋 대비 규모와 다양성 면에서 압도적이며, 그림자, 반사, 조명 변화 등 5가지 핵심 시각 효과를 체계적으로 다룬다.
EffectErase 이중 학습 프레임워크
비디오 객체 제거와 삽입을 상호 보완적인 역작업으로 정의하고 하나의 백본에서 동시에 학습하는 패러다임을 도입했다. 이를 통해 모델은 객체가 장면에 미치는 시각적 영향을 더 정밀하게 이해하고 복원한다.
TARG(Task-Aware Region Guidance) 모듈
Cross-attention 메커니즘을 활용해 객체와 그에 따른 부수적 효과 사이의 시공간적 상관관계를 모델링했다. 텍스트와 이미지 토큰을 결합해 마스크 외부의 영향 영역까지 정확히 식별하도록 유도한다.
핵심 아이디어 이해하기
비디오 인페인팅은 마스크로 가려진 영역을 주변 맥락에 맞춰 채우는 기술이다. 하지만 단순히 물체 형태만 지우면 물체가 바닥에 드리운 그림자나 유리창의 반사광 같은 '부수적 효과'가 남아 영상의 현실감이 떨어진다. 기존 방식은 입력 마스크에만 지나치게 의존하여 마스크 바깥의 변화를 감지하지 못하는 한계가 있었다.
EffectErase는 '물체를 지우는 것'과 '물체를 넣는 것'이 서로 반대되는 작업이지만, 영향을 주는 영역(그림자, 반사 등)은 동일하다는 점에 착안했다. 이를 위해 제거(Removal)와 삽입(Insertion)을 동시에 학습시키며, 두 작업이 같은 영역을 바라보도록 강제하는 일관성 손실(Effect Consistency Loss)을 적용했다.
또한 Task-Aware Region Guidance 모듈을 통해 물체와 그 효과 사이의 관계를 학습한다. 예를 들어 '공'이라는 물체 토큰과 영상 내의 '그림자' 영역을 연결함으로써, 공을 지울 때 그와 연결된 그림자 영역까지 정밀하게 찾아내어 함께 제거할 수 있게 된다.
방법론
전체 구조는 Wan 2.1 기반의 Diffusion Transformer(DiT) 백본을 사용하며, VAE를 통해 비디오를 잠재 공간으로 인코딩한다. 제거 작업 시에는 [객체 영상; 마스크]를, 삽입 작업 시에는 [배경 영상; 객체 패치]를 조건으로 입력받아 노이즈를 제거하는 과정을 거친다.
TARG 모듈은 텍스트 프롬프트에서 추출한 Task 토큰과 CLIP 이미지 인코더로 추출한 객체 특징을 결합한다. 이 결합된 특징을 DiT 블록의 Cross-attention 레이어에 주입하여 모델이 객체와 관련된 시공간적 맥락을 파악하도록 유도한다. [객체 특징 → Cross-attention → 영향 영역 활성화] 순으로 연산이 이뤄져 마스크 외부의 효과 영역을 식별한다.
EC Loss는 제거와 삽입 두 경로에서 생성된 Attention Map을 정렬한다. 두 맵을 Max-pooling하여 가장 활성화된 영역을 추출한 뒤, 두 분포 사이의 KL Divergence를 계산하여 일치시킨다. [두 작업의 Attention Map → Max-pooling → KL Divergence 계산 → 영역 일치화] 과정을 통해 모델은 객체가 미치는 시각적 영향 범위를 더 정확히 학습한다.
주요 결과
ROSE 및 VOR-Eval 벤치마크에서 PSNR, SSIM, LPIPS, FVD 등 모든 주요 지표에서 기존 SOTA 모델을 능가했다. 특히 비디오 품질 지표인 FVD에서 ROSE-Benchmark 기준 72.177에서 55.578로 대폭 개선되어 시공간적 일관성이 뛰어남을 입증했다.
Ablation Study 결과, EC Loss와 TARG 모듈을 추가할 때마다 성능이 점진적으로 향상되었다. 특히 실제 데이터만 사용했을 때보다 합성 데이터를 함께 학습했을 때 FVD가 349.094에서 342.871로 낮아져 데이터 다양성이 일반화 성능에 기여함을 확인했다.
실무 활용
영화 후반 작업이나 개인 영상 편집 시 불필요한 행인이나 물체를 지울 때, 그림자나 반사광까지 자동으로 처리하여 수작업 시간을 획기적으로 줄여준다.
- 영화/드라마 촬영 중 노출된 스태프나 장비 및 그 그림자 제거
- 유리창에 비친 촬영 장비의 반사광 제거
- 영상 내 특정 객체를 자연스럽게 추가하여 합성 영상 제작
- 복잡한 배경에서 움직이는 물체를 지우고 배경을 자연스럽게 복원
기술 상세
EffectErase는 Diffusion Transformer(DiT) 아키텍처를 기반으로 하며, 제거와 삽입이라는 상호 보완적 작업을 단일 가중치 네트워크에서 공유하는 Dual-learning 전략을 취한다. 이는 모델이 객체의 존재 유무에 따른 장면의 변화를 더 깊이 있게 이해하도록 돕는다.
TARG 모듈은 CLIP 기반의 시각적 프롬프팅을 활용한다. 객체의 외형 정보를 담은 임베딩을 DiT의 Cross-attention 연산의 Key와 Value로 사용함으로써, 쿼리인 비디오 잠재 특징이 객체와 연관된 물리적 효과를 스스로 찾아내도록 설계되었다.
학습 시에는 LoRA를 적용하여 Wan 2.1 모델을 효율적으로 파인튜닝했다. Rank=256 설정을 사용했으며, 8개의 H100 GPU에서 12만 회의 반복 학습을 수행하여 대규모 VOR 데이터셋에 최적화했다. 데이터셋 구성 시 Ken Burns 효과를 적용해 카메라 움직임을 시뮬레이션하여 실제 촬영 환경과의 간극을 좁혔다.
한계점
제거 영역을 지정하기 위해 여전히 입력 마스크가 필요하며, 향후 텍스트나 음성만으로 상호작용하는 사용자 친화적 방식으로의 발전이 필요하다. 또한 효과가 물체에 명확히 귀속되지 않는 모호한 상황에서는 처리가 어려울 수 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료