핵심 요약
기존 비디오 편집 모델은 배경 교체 시 정적인 결과물을 생성하거나 전경 객체의 구조가 무너지는 한계가 있었다. 이 논문은 전경과 배경의 가이드를 분리하여 처리하는 새로운 데이터 생성 파이프라인을 통해 실제 영화 제작 수준의 역동적이고 자연스러운 배경 합성을 가능하게 한다.
왜 중요한가
기존 비디오 편집 모델은 배경 교체 시 정적인 결과물을 생성하거나 전경 객체의 구조가 무너지는 한계가 있었다. 이 논문은 전경과 배경의 가이드를 분리하여 처리하는 새로운 데이터 생성 파이프라인을 통해 실제 영화 제작 수준의 역동적이고 자연스러운 배경 합성을 가능하게 한다.
관련 Figure

기존 방식은 배경이 정적이거나 구조가 뭉개지는 반면, Sparkle은 파도나 흔들리는 잎사귀 등 역동적인 배경을 자연스럽게 생성함을 시각적으로 대조한다. 이는 논문이 해결하고자 하는 핵심 문제인 '배경 생동감 부족'을 명확히 보여준다.
기존 OpenVE-3M 데이터셋과 Sparkle 데이터셋의 품질 비교 예시이다.
핵심 기여
Decoupled Guidance 데이터 생성 파이프라인
전경과 배경의 제어 신호를 독립적으로 생성하고 합성하는 5단계 파이프라인을 설계하여 배경의 역동성과 전경의 보존력을 동시에 확보했다.
Sparkle 데이터셋 구축
위치, 계절, 시간, 스타일 등 5가지 테마와 21개 하위 테마를 포함하는 약 14만 개의 고품질 비디오 쌍을 구축하여 공개했다.
BAIT 전경 추적 알고리즘
Bbox-Anchor-In-Temporal(BAIT) 방식을 도입하여 단일 프레임 추적의 한계를 극복하고 전경 객체의 세부 디테일을 정밀하게 유지한다.
Sparkle-Bench 벤치마크
배경 교체 작업에 특화된 6가지 차원의 평가 지표를 포함하는 458개 비디오 규모의 최대 평가 데이터셋을 제안했다.
관련 Figure

Location, Season, Time, Style의 4대 테마와 하위 21개 서브테마의 분포를 보여준다. 총 137,477개의 비디오 쌍이 균형 있게 구성되어 데이터셋의 다양성과 규모를 입증한다.
Sparkle 데이터셋의 테마별 통계 분포를 나타내는 선버스트 차트이다.
핵심 아이디어 이해하기
기존의 비디오 편집은 주로 전경 객체의 Canny Edge와 같은 제어 신호에만 의존하여 배경을 생성했다. 이로 인해 배경은 전경의 움직임에 종속되거나 단순히 정지된 이미지처럼 생성되는 '정적 배경' 문제가 발생했다. 이는 모델이 배경 고유의 물리적 움직임(파도, 흔들리는 잎사귀 등)을 학습할 명시적인 가이드가 부족했기 때문이다.
Sparkle은 전경과 배경을 완전히 분리(Decouple)하여 각각의 가이드를 생성하는 방식을 취한다. 먼저 전경이 제거된 순수 배경 이미지를 생성한 뒤, 이를 Image-to-Video 모델로 애니메이션화하여 배경만의 독립적인 움직임을 확보한다. 이후 전경의 움직임 정보와 배경의 움직임 정보를 결합하여 최종 비디오를 합성한다.
이러한 접근은 전경 객체의 디테일을 손상시키지 않으면서도 배경에 생동감 넘치는 역동성을 부여한다. 결과적으로 단순한 합성 수준을 넘어 전경과 배경이 자연스럽게 상호작용하는 고품질의 비디오 생성을 가능하게 한다.
방법론
데이터 생성 파이프라인은 5단계로 구성된다. 1단계에서는 고정 카메라 비디오를 수집하고 EditScore를 통해 저품질 데이터를 필터링한다. 2단계에서는 FLUX.2-klein-9B를 사용하여 첫 프레임의 배경을 교체하고, 3단계에서는 전경을 제거한 뒤 Wan2.2-I2V-A14B 모델로 배경 비디오를 독립적으로 생성한다.
4단계에서는 BAIT(Bbox-Anchor-In-Temporal) 알고리즘을 적용한다. Qwen3-VL-32B로 추출한 전경 Bounding Box를 앵커로 삼아 SAM3를 통해 다중 패스 추적을 수행한다. 각 픽셀에 대해 과반수 투표(Pixel-wise Voting)를 실시하여 [N개의 마스크 입력 → 과반수 찬성 여부 연산 → 최종 마스크 출력] 과정을 거쳐 정밀한 전경 마스크를 얻는다.
5단계에서는 추출된 전경 Canny Edge와 배경 Canny Edge를 결합하여 제어 신호를 만든다. 이를 Wan2.2-Fun-A14B-Control 모델의 입력으로 사용하여 최종 비디오를 합성한다. 모든 단계에서 EditScore를 활용해 [합성 이미지와 프롬프트 입력 → 보상 모델 점수 계산 → 임계값 미달 제거] 방식으로 엄격한 품질 관리를 수행한다.
관련 Figure

소스 비디오 필터링부터 배경 생성, BAIT 전경 추적, 그리고 최종 분리 가이드 기반 합성에 이르는 전체 워크플로우를 설명한다. 각 단계에서 사용된 모델(Qwen3, FLUX.2, Wan2.2 등)과 품질 검사 과정을 명시하여 방법론의 핵심을 시각화한다.
Sparkle 데이터 생성 파이프라인의 5단계 과정을 보여주는 다이어그램이다.
주요 결과
OpenVE-Bench 평가 결과, Sparkle 데이터셋으로 학습된 Kiwi-Sparkle 모델은 Overall 점수 3.29를 기록하여 기존 SOTA 모델인 Kiwi-Edit(2.58) 대비 약 28%의 성능 향상을 보였다. 특히 상용 모델인 UniVideo(2.74)보다 높은 성능을 기록하며 오픈소스 모델의 한계를 돌파했다.
Sparkle-Bench에서의 실험 결과, 전경 가이드만 사용했을 때보다 배경 가이드를 추가했을 때(FG+BG) 모든 지표에서 유의미한 상승이 확인됐다. 특히 배경 역동성(BgDy) 지표에서 큰 폭의 개선이 나타나 제안된 Decoupled Guidance의 효과를 입증했다. Ablation Study를 통해 단순 Copy-and-Paste 방식보다 제안된 재생성 방식이 시각적 품질 면에서 115% 이상의 이득을 얻음을 확인했다.
기술 상세
Sparkle 아키텍처는 전경 보존과 배경 역동성 사이의 트레이드오프를 해결하기 위해 제어 신호를 분리한다. BAIT 알고리즘은 단일 프레임 기반 추적의 취약점인 Entity Loss를 방지하기 위해 시간적 앵커를 활용한 앙상블 기법을 사용한다. 이는 특히 복잡한 형태의 전경 객체나 빠른 움직임이 있는 상황에서도 안정적인 마스킹을 보장한다.
학습 과정에서는 Kiwi-Edit 모델을 기반으로 Sparkle 데이터셋 140K 쌍에 대해 10K 스텝의 경량 파인튜닝을 수행했다. 배치 사이즈 128을 사용했으며, 모델 구조의 변경 없이 순수하게 데이터 품질 개선만으로 성능 향상을 이끌어냈다. 평가 지표로는 Gemini-2.5-Pro를 활용한 6차원 평가 프로토콜을 도입하여 인간의 시각적 판단과 유사한 정밀한 벤치마킹을 구현했다.
한계점
Time 테마(시간대 변경)의 경우 빛과 그림자의 정밀한 조절이 필요하여 다른 테마에 비해 상대적으로 낮은 점수를 기록했다. 또한 현재 파이프라인은 고정 카메라 비디오에 최적화되어 있어 카메라 움직임이 심한 영상에서의 배경 분리 및 합성은 여전히 도전적인 과제로 남아있다.
실무 활용
영화 후반 작업, 광고 제작, 개인 크리에이터의 영상 편집 등에서 고품질 배경 교체 도구로 즉시 활용 가능하다.
- 영화 제작 시 크로마키 없이도 자연스러운 가상 배경 합성 및 조명 최적화
- 전자상거래 광고 영상에서 제품 전경은 유지한 채 배경 테마(계절, 장소)만 변경
- SNS 크리에이터를 위한 지시어 기반 자동 비디오 배경 교체 서비스
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.