Aurora: 도구를 사용하는 에이전트와 함께하는 통합 비디오 편집

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

다수의 비디오 편집 모델은 텍스트, 원본 비디오, 참조 이미지 등을 하나의 conditioning으로 처리한다. 그러나 실제 요청은 이러한 입력이 부족한 경우가 많아 편집 목표가 불완전하게 주어진다. Aurora는 VLM 에이전트가 원시 요청을 모델에 맞는 네 가지 필드 계획으로 확장하고, 필요시 웹 이미지 검색과 grounded segmentation으로 누락된 시각적 조건을 보충한다. 그 뒤 비디오 DiT가 단일 conditioning tuple로 이를 수용해 일관된 편집 결과를 낸다. AgentEdit-Bench를 통해 텍스트/시각적 underspecification 하에서의 전체 프레임워크를 평가하며, 동일 VLM 에이전트가 다른 비디오 편집 모델로도 전달 가능함을 보인다.

왜 중요한가

핵심 기여

Agent-augmented 비디오 편집 프레임워크

도구를 활용한 VLM 에이전트가 원시 요청을 네 가지 필드(y′, c, q, m)로 구성된 완전한 편집 계획으로 변환하고, 도구 호출로 이미지 검색 및 마스킹을 수행하여 R+를 구성한 뒤 x = (y′, Vsrc, R+)로 DiT의 unified conditioning에 전달한다.

SFT와 DPO를 통한 에이전트 학습

VLM 에이전트의 계획을 감독적으로 학습시키는 Planning SFT와, 선택된 계획(p+)과 거부된 계획(p−) 간의 선호를 학습하는 DPO를 통해, 에이전트의 의도 해석 및 경계 설정을 강화한다.

AgentEdit-Bench 도입

텍스트 및 시각적 underspecification 하에서의 비디오 편집 요청을 평가하기 위한 벤치마크로, IP 편집, 배경 변경, 제거 등 다섯 축으로 구성되며, Gemini 2.5 Pro로 평가한다.

다양한 비디오 편집 모델로의 전이성

VLM 에이전트의 출력이 한 모델에 고정되지 않으며, OpenVE-Bench, EditVerse-Bench 등에서 다른 비디오 DiT 계열 모델로도 성능 향상을 보였고, 에이전트의 rewrite가 모델 간 안정적 성능 향상을 견인한다.

핵심 아이디어 이해하기

Paragraph 1: 영상 편집은 텍스트 지시, 원본 비디오의 보존 영역, 시각적 속성의 참조 이미지로 구성되며, underspecification이 편집 품질을 저해한다. 이러한 한계는 conditioning 채널 간의 불완전 매핑에서 비롯된다. Paragraph 2: Aurora는 VLM 에이전트를 도입해 raw 요청으로부터 4-field edit plan을 생성하고, image_search(Tsearch)와 mask(Tmask) 도구를 통해 필요 시 참조 이미지를 보강한다. 또한 DiT는 두 개의 conditioning 경로를 통해 y′, Vsrc, R+를 받고, cross-attention과 self-attention으로 토큰을 결합한다. Paragraph 3: 학습 단계로 DiT의 flow-matching 기반 학습과 VLM 에이전트의 SFT/DPO 학습을 병행한다. 결과적으로 underspecification 상황에서도 편집 품질이 향상되며, 에이전트의 이점은 다른 비디오 편집 모델로도 확장된다.

방법론

단락 1: 전체 접근 방식은 VLM 에이전트- DiT의 이원 구조로 구분된다. VLM 에이전트는 입력 비디오 Vsrc, 원시 지시 y, 참조 R를 받아 네 가지 필드로 구성된 edit plan(p★)를 산출한다. 이때 y′는 rewrite된 지시문, c는 작업 라벨, q는 image_search 쿼리, m은 mask 문구이다. 단락 2: 도구 실행 단계에서 R+ = R ∪ Tsearch(q) ∪ Tmask(m, Vsrc)로 참조 자산을 보강한다. 빈 계획 필드는 도구 호출이 없음을 의미한다. 단락 3: Conditioning tuple x = (y′, Vsrc, R+)를 DiT에 전달한다. 다중 경로로 인코딩된 맥락 정보(Tctx)와 잠재 토큰 시퀀스(S)로 DiT가 학습한다.

주요 결과

AgentEdit-Bench에서의 주된 결과는 아래와 같다. Aurora(에이전트 포함) 대조군 대비 Overall 점수: 87.9% vs 74.7% (Aurora DiT 단독). SFT만 적용 시 85.0, 여기에 DPO를 추가하면 87.9로 상승. 에이전트의 전이가 다른 모델로도 성능을 향상시키며, OpenVE-Bench에서 Kiwi-Edit의 점수가 3.02에서 3.29로, Aurora-기반 DiT의 OpenVE-Bench 점수는 3.31에서 3.46으로 상승한다. EditVerse-Bench의 경우 UniVideo는 6.12에서 6.48로, Aurora(자체 모델)도 7.25에서 7.61로 향상된다. 기존 벤치마크에서도 Aurora는 Kiwi-Edit 대비 강하게 경쟁하며, Subtitle 제거를 제외한 항목에서 높은 성능을 유지한다.

기술 상세

Video DiT의 핵심은 two-path conditioning으로, 1) multimodal context encoder를 통한 y′, Vsrc, R+의 cross-attention과 2) latent 토큰 시퀀스를 통한 self-attention을 이용하는 점이다. Multimodal context encoder는 frozen Qwen3.5-4B를 이용해 instruction, sampled frames, 참조 이미지를 하나의 맥락으로 인코딩하고, 이 맥락은 DiT의 cross-attention 차원으로 매핑된다. Sref와 Ssrc는 각각 reference 이미지와 source 비디오 프레임의 패치 임베딩으로 결합되며, e_k 로 각 참조 이미지에 대한 인덱스 임베딩이 추가된다. AdaLN 모듈러를 통해 real-timestep(a(t))과 zero-timestep(a(0))를 혼합한 모듈레이션을 각 토큰에 적용한다. LFM(θ) 손실은 z_t의 denoising velocity v_θ와 x에 의한 조건화 벡터의 차이를 제곱합으로 최소화하는 형태로 정의되며, L_SFT와 L_DP O를 통해 VLM 에이전트의 행동 정책과 선호를 학습한다.

한계점

실무 활용

원시 요청이 불완전한 상황에서도 참조 이미지 검색과 마스크 grounding을 통해 모델에 필요한 조건을 보완하는 에이전트-제어식 비디오 편집 시스템이다. 다수의 벤치마크에서 VLM 에이전트의 도입으로 편집 품질과 지역성, 시간이 지속적으로 향상된다.

배경 교체 및 물체 제거를 위한 구체적 마스킹 지시의 자동 grounding
다중 영상에서의 일관된 스타일 및 조명 보정
참조 이미지가 즉시 주어지지 않는 상황에서의 지시문 재작성 및 루틴화

코드 공개 여부: 공개

코드 저장소 보기

키워드

video-editing(비디오 편집)diffusion-transformer(확산 트랜스포머)vision-language-model(비전-언어 모델)agent(에이전트)RAG(검색 증강)web-image-search(웹 이미지 검색)Grounding-DINO(그 grounding)AgentEdit-Bench(AgentEdit-벤치)