핵심 요약
자연어만으로는 설명하기 어려운 복잡한 시각적 세부 사항을 참조 이미지를 통해 정밀하게 제어할 수 있는 비디오 편집 기술을 제시한다. 대규모 오픈소스 데이터셋인 RefVIE를 공개하여 연구 커뮤니티의 데이터 부족 문제를 해결하고 상용 모델 수준의 성능을 오픈소스로 구현했다.
왜 중요한가
자연어만으로는 설명하기 어려운 복잡한 시각적 세부 사항을 참조 이미지를 통해 정밀하게 제어할 수 있는 비디오 편집 기술을 제시한다. 대규모 오픈소스 데이터셋인 RefVIE를 공개하여 연구 커뮤니티의 데이터 부족 문제를 해결하고 상용 모델 수준의 성능을 오픈소스로 구현했다.
핵심 기여
RefVIE 데이터셋 구축
지시어와 참조 이미지를 포함하는 477,000개의 고품질 비디오 편집 4중주(quadruplet) 데이터셋을 자동화된 파이프라인으로 생성했다.
Kiwi-Edit 아키텍처 제안
MLLM의 의미 이해 능력과 DiT의 생성 능력을 결합하고, 듀얼 커넥터를 통해 텍스트와 시각적 참조 정보를 통합적으로 처리하는 프레임워크를 설계했다.
하이브리드 잠재 주입 기법
원본 비디오의 구조를 유지하기 위한 요소별 덧셈 방식과 참조 이미지의 질감을 반영하기 위한 시퀀스 결합 방식을 혼합하여 편집 정밀도를 높였다.
RefVIE-Bench 벤치마크 수립
참조 이미지 준수 여부, 지시어 이행도, 시간적 일관성을 엄격하게 평가하기 위해 수동으로 검증된 110개의 샘플로 구성된 평가 지표를 마련했다.
핵심 아이디어 이해하기
기존 비디오 편집은 텍스트 지시어에만 의존하여 특정 질감이나 객체의 정체성을 정확히 묘사하는 데 한계가 있었다. Transformer 기반의 Diffusion 모델은 텍스트 임베딩을 통해 정보를 전달받지만, 픽셀 단위의 세밀한 시각 정보를 텍스트만으로 복원하기는 어렵다. Kiwi-Edit은 MLLM(Multimodal Large Language Model)을 활용해 텍스트와 이미지를 동시에 인코딩함으로써 이 문제를 해결한다.
MLLM에서 추출한 '쿼리 토큰'은 편집의 전반적인 의도를 파악하고, '잠재 시각 특징'은 참조 이미지의 구체적인 외형 정보를 DiT(Diffusion Transformer)에 전달한다. 이는 마치 숙련된 화가가 말로 된 설명뿐만 아니라 참고 사진을 함께 보며 그림을 수정하는 것과 유사한 원리다.
특히 원본 비디오의 레이아웃을 유지하기 위해 원본 프레임의 잠재 특징을 생성 과정에 직접 주입한다. 이때 시간 단계(timestep)에 따라 주입 강도를 조절하는 스케일링 기법을 적용하여, 초기에는 전체적인 구조를 잡고 후기에는 세부적인 질감을 입히는 방식으로 자연스러운 편집 결과를 도출한다.
방법론
데이터 생성 파이프라인은 기존의 (원본-결과) 비디오 쌍에서 Qwen3-VL과 SAM3를 이용해 편집 영역을 접지(grounding)하고 분할(segmentation)하는 것으로 시작한다. 이후 Qwen-Image-Edit 모델을 사용하여 편집된 영역에 해당하는 참조 이미지를 역으로 합성함으로써 대규모 4중주 데이터셋을 자동으로 구축한다.
Kiwi-Edit 모델은 Qwen2.5-VL-3B를 백본으로 하여 지시어와 참조 이미지를 처리한다. Query Connector는 768개의 토큰으로 편집 의도를 응축하고, Latent Connector는 참조 이미지의 시각적 특징을 추출한다. 이 토큰들은 DiT(Wan2.2-TI2V-5B)의 Cross-Attention 레이어에서 키(Key)와 값(Value)으로 사용되어 생성 과정을 가이드한다.
구조 보존을 위해 하이브리드 잠재 주입(Hybrid Latent Injection) 전략을 사용한다. 원본 비디오의 VAE 잠재값은 PatchEmbed를 거쳐 노이즈 잠재값에 요소별(element-wise)로 더해진다. [원본 비디오 잠재값과 시간 단계 t를 입력으로] → [학습된 스칼라 함수 γ(t)를 곱해 가중치를 조절한 뒤] → [노이즈 잠재값에 더하는 연산을 수행해] → [구조가 보존된 수정 잠재값 z'_t를 얻는다]. 참조 이미지는 DiT 입력 시퀀스에 직접 결합(concatenation)되어 세밀한 질감 정보를 직접적으로 전달한다.
주요 결과
OpenVE-Bench 평가에서 Overall 점수 3.02를 기록하며 기존 오픈소스 최고 성능 모델인 OpenVE-Edit(2.50)을 크게 앞질렀다. 특히 배경 교체(Background Change) 항목에서는 3.84점을 기록하여 상용 폐쇄형 모델인 Runway Aleph(2.62)보다 우수한 성능을 보였다.
RefVIE-Bench 평가 결과, 참조 이미지를 활용한 편집에서 Overall 3.31점을 획득하여 Runway Aleph(3.29)를 상회했다. 객체 일관성(Identity Consistency)은 3.98점, 참조 유사도(Reference Similarity)는 3.72점을 기록하여 참조 이미지의 특징을 비디오에 정확하게 반영함을 입증했다.
Ablation Study를 통해 시간 단계별 스케일링(timestep scaling)이 없는 경우보다 있는 경우에 제거(Remove) 작업 성능이 2.58에서 2.63으로, 스타일(Style) 작업 성능이 4.05에서 4.07로 향상됨을 확인했다. 또한 MLLM과 DiT 간의 정렬(Alignment) 단계가 생략될 경우 성능이 급격히 저하되어 다단계 학습 커리큘럼의 중요성을 증명했다.
기술 상세
전체 아키텍처는 고정된 MLLM(Qwen2.5-VL)과 DiT(Wan2.2-TI2V)를 연결하는 구조로 설계되었다. MLLM에는 LoRA를 적용하여 비디오 편집 도메인에 적응시켰으며, DiT는 Flow Matching 목적 함수를 통해 학습된다. [예측된 속도 벡터와 실제 데이터 이동 경로를 입력으로] → [두 값의 차이의 제곱을 계산하여] → [손실값을 얻고] → [이 값을 최소화하도록 가중치를 갱신한다].
학습은 3단계 점진적 커리큘럼을 따른다. 1단계는 MLLM과 DiT 간의 의미적 정렬(Alignment)로, 커넥터와 LoRA 모듈만 학습시킨다. 2단계는 대규모 이미지/비디오 데이터를 활용한 지시어 튜닝(Instructional Tuning)으로 DiT 레이어를 함께 최적화한다. 3단계는 RefVIE 데이터셋을 이용한 참조 가이드 미세 조정(Reference-Guided Fine-tuning)으로 시각적 참조 능력을 극대화한다.
구조 보존을 위한 γ(t) 스케일링은 학습 안정성에 핵심적이다. 단순 채널 결합(Channel Concat) 방식은 2.08점(Remove 기준)에 그친 반면, 요소별 덧셈 방식은 2.84점을 기록하여 구조적 레이아웃 유지에 더 효과적임을 확인했다. 또한 참조 이미지를 패치 임베딩하여 시퀀스에 결합하는 방식이 Cross-Attention만 사용하는 것보다 세밀한 텍스트 복사에 유리함을 입증했다.
한계점
데이터셋이 국소적 변화(local changes)에 다소 편향되어 있어, 전체적인 배경의 급격한 변화 시 성능이 일부 저하될 수 있는 한계가 존재한다.
실무 활용
특정 제품이나 인물을 비디오에 자연스럽게 합성하거나 배경을 정교하게 교체해야 하는 영상 제작, 광고, 소셜 미디어 콘텐츠 생성 분야에서 즉시 활용 가능하다.
- 쇼핑몰 홍보 영상에서 모델이 입은 옷을 특정 브랜드의 신제품 이미지로 자연스럽게 교체
- 영화나 드라마 장면의 배경을 특정 컨셉 아트 이미지와 동일한 분위기와 스타일로 변경
- 개인 브이로그 영상에 특정 캐릭터나 소품 이미지를 참조하여 자연스러운 움직임과 함께 추가
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.