핵심 요약
지시어 기반 비디오 편집(Instruction-based video editing)은 비약적인 발전을 이루었으나, 자연어의 본질적인 한계로 인해 복잡한 시각적 세부 사항을 묘사하고 정밀하게 제어하는 데 어려움을 겪고 있습니다. 참조 가이드 편집(Reference-guided editing)은 강력한 대안을 제공하지만, 고품질의 쌍을 이룬 학습 데이터가 부족하다는 점이 현재의 병목 현상입니다. 이러한 간극을 메우기 위해, 본 연구에서는 이미지 생성 모델(Image generative models)을 활용하여 기존 비디오 편집 쌍을 고충실도 학습 4중주(Training quadruplets)로 변환하는 확장 가능한 데이터 생성 파이프라인을 도입합니다. 이 파이프라인을 통해 지시어-참조 준수 작업을 위해 설계된 대규모 데이터셋인 RefVIE를 구축하고, 종합적인 평가를 위한 RefVIE-Bench를 수립했습니다. 나아가, 참조 시맨틱 가이드를 위해 학습 가능한 쿼리(Learnable queries)와 잠재 시각적 특징(Latent visual features)을 시너지 효과로 결합한 통합 편집 아키텍처인 Kiwi-Edit을 제안합니다. 본 모델은 점진적 다단계 학습 커리큘럼(Progressive multi-stage training curriculum)을 통해 지시어 준수 및 참조 충실도에서 상당한 성능 향상을 달성했습니다. 광범위한 실험 결과, 제안된 데이터와 아키텍처가 제어 가능한 비디오 편집 분야에서 새로운 최첨단(SOTA) 성능을 기록했음을 입증했습니다. 모든 데이터셋, 모델 및 코드는 제공된 URL을 통해 공개됩니다.
핵심 기여
확장 가능한 데이터 생성 파이프라인
이미지 생성 모델을 활용해 기존 비디오 편집 쌍을 고충실도 학습용 4중주 데이터로 변환하는 자동화된 파이프라인을 구축함.
대규모 RefVIE 데이터셋 및 벤치마크
지시어와 참조 이미지를 동시에 따르는 비디오 편집 학습을 위한 대규모 데이터셋 RefVIE와 평가용 RefVIE-Bench를 제작함.
Kiwi-Edit 통합 아키텍처
학습 가능한 쿼리와 잠재 시각적 특징을 결합하여 참조 이미지의 시맨틱 정보를 비디오 편집 과정에 정밀하게 주입함.
점진적 다단계 학습 커리큘럼
모델이 지시어와 참조 정보를 단계적으로 학습하도록 설계하여 복잡한 편집 작업에서의 충실도와 제어 성능을 확보함.
방법론
Kiwi-Edit은 참조 이미지의 시맨틱 정보를 추출하기 위해 학습 가능한 쿼리와 잠재 시각적 특징을 융합하는 구조를 채택했다. 이미지 생성 모델로 합성된 참조 스캐폴드(Reference scaffolds)를 활용하는 데이터 파이프라인을 통해 학습 데이터를 확장하고, 점진적인 다단계 학습 방식을 적용하여 모델의 제어력을 확보했다.
주요 결과
RefVIE-Bench 평가 결과, Kiwi-Edit은 기존 지시어 기반 모델들보다 지시어 준수 및 참조 이미지와의 시각적 일치성에서 우수한 성능을 기록하며 새로운 SOTA를 달성했다. 특히 복잡한 시각적 제어가 필요한 시나리오에서 참조 충실도(Reference fidelity)가 크게 개선된 결과를 보였다.
시사점
텍스트만으로 표현하기 어려운 미세한 스타일이나 특정 객체의 외형을 참조 이미지를 통해 비디오에 정확히 이식할 수 있다. 상업적 영상 제작이나 개인화된 콘텐츠 생성 분야에서 비디오 편집의 정밀도와 효율성을 높이는 데 기여할 것이다.
키워드
섹션별 상세
확장 가능한 데이터 생성 파이프라인
대규모 RefVIE 데이터셋 및 벤치마크
Kiwi-Edit 통합 아키텍처
점진적 다단계 학습 커리큘럼
AI 요약 · 북마크 · 개인 피드 설정 — 무료