NOVA: 페어 데이터가 필요 없는 비디오 편집을 위한 희소 제어 및 조밀 합성 프레임워크

왜 중요한가

비디오 편집 AI 학습에 필수적이었던 편집 전후 영상 쌍 데이터 없이도 고품질 편집이 가능함을 증명했다. 특히 기존 방식들이 어려워하던 배경 일관성과 복잡한 움직임 보존 문제를 이중 구조 아키텍처로 해결하여 실무 활용도를 높였다.

핵심 기여

Sparse Control & Dense Synthesis 패러다임

비디오 편집 신호를 희소 신호와 조밀 신호로 분리하여 제어력과 품질을 동시에 확보하는 새로운 구조를 도입했다.

Degradation-Simulation 학습 전략

인위적으로 열화시킨 영상을 활용해 모델이 스스로 움직임을 복원하고 일관성을 유지하도록 학습시키는 자기 지도 학습 방식을 적용했다.

일관성 인식 추론 파이프라인

첫 번째 편집 프레임을 참조점으로 삼아 후속 프레임을 순차적으로 편집함으로써 프레임 간 스타일 불일치와 깜빡임 현상을 억제했다.

SOTA 성능 달성

별도의 비디오별 파인튜닝 없이도 기존의 AnyV2V, I2VEdit 등 최신 모델 대비 높은 편집 충실도와 배경 SSIM 수치를 기록했다.

핵심 아이디어 이해하기

기존 비디오 편집은 주로 첫 프레임을 편집한 뒤 이를 나머지 프레임으로 전파하는 방식을 사용한다. 하지만 카메라나 물체의 움직임이 크면 첫 프레임의 정보만으로는 배경의 세부 텍스처나 가려졌던 영역을 복원하기 어려워 배경이 뭉개지거나 일관성이 깨지는 한계가 있다.

NOVA는 이를 해결하기 위해 희소 제어와 조밀 합성이라는 두 가지 경로를 설계했다. 사용자가 편집한 몇 개의 핵심 프레임은 전체적인 의미 변화를 가이드하는 앵커 역할을 수행하고, 원본 비디오 전체는 배경과 움직임의 세부 정보를 제공하는 소스로 활용된다.

특히 Dense Branch는 원본 영상의 고해상도 텍스처와 모션 큐를 메인 생성 공정에 직접 주입한다. 이를 통해 모델은 무엇을 바꿔야 할지와 무엇을 지켜야 할지를 명확히 구분하여 처리하게 된다. 결과적으로 페어 데이터 없이도 원본의 역동적인 움직임을 유지하면서 정교한 로컬 편집이 가능해졌다.

방법론

NOVA는 메인 디노이징 브랜치, Sparse Branch, Dense Branch로 구성된 듀얼 브랜치 아키텍처를 채택했다. Sparse Branch는 WAN DiT 레이어를 통해 편집된 키프레임 정보를 인코딩하며, Dense Branch는 원본 비디오에서 추출한 특징을 Cross-Attention을 통해 메인 브랜치에 주입한다.

학습 시에는 Degradation-Simulation 기법을 사용한다. 타겟 비디오에서 키프레임을 샘플링한 뒤 가우시안 블러나 아핀 변환 같은 무작위 열화를 적용하여 변형된 키프레임을 생성한다. 이후 선형 보간을 통해 열화된 참조 영상을 만들고, 모델이 이를 원본 영상으로 복원하도록 학습시킨다.

수식적으로는 메인 특징 벡터에 키프레임 조건 r을 입력받은 Sparse 모듈과 원본 특징을 입력받은 Dense 모듈의 출력을 더해 가중치를 갱신한다. [메인 잠재 벡터와 조건부 입력값 → Cross-Attention 연산 → 편집 가이드 및 원본 디테일 융합 → 일관된 프레임 생성]의 과정을 거쳐 최종 결과물을 얻는다.

주요 결과

Pexels 데이터셋 기반 실험에서 NOVA는 1.3B 파라미터 모델로도 14B 규모의 LoRA-Edit보다 높은 성능을 보였다. 특히 인간 평가에서 성공률(SR) 0.93을 기록하며 AnyV2V(0.75)나 I2VEdit(0.83)을 크게 앞질렀다.

배경 보존 능력을 측정하는 BG-SSIM 지표에서 0.917을 기록하여, Dense Branch가 없는 모델 대비 배경의 세부 텍스처 복원력이 월등함을 입증했다. VBench의 Motion Smoothness(MS) 항목에서도 0.993으로 가장 높은 점수를 획득했다.

Ablation Study 결과, Dense Branch를 제거할 경우 배경에 환각 현상이 발생하며, 일관성 인식 추론을 제외하면 프레임 간 스타일이 급격히 변하는 것이 확인됐다.

실무 활용

페어 데이터 없이도 학습이 가능하므로 특정 도메인의 비디오 편집 모델을 구축할 때 데이터 수집 비용을 획기적으로 줄일 수 있다.

비디오 내 특정 객체 제거 및 추가
영상 배경 변경 및 스타일 변환
저화질 영상의 모션 기반 고화질 복원
광고 및 영화 제작 시 부분적 요소 수정

기술 상세

전체 아키텍처는 WAN 2.1 VACE 1.3B를 기반으로 하며, 메인 DiT와 Dense DiT 브랜치는 가중치를 고정한 채 새로 추가된 Cross-Attention 모듈만 학습시키는 효율적인 전략을 사용했다.

Sparse Branch는 사용자가 편집한 키프레임들을 선형 보간하여 생성한 Anchored Control Pipe를 입력으로 받는다. 이는 모델에게 시간적 앵커 역할을 수행하여 구조적 드리프트를 방지한다.

Dense Branch는 Source Fidelity Pipe를 통해 생성된 의사 원본 영상을 처리한다. Cut-and-Paste 방식으로 무작위 객체를 합성한 영상을 입력으로 주어, 모델이 합성된 객체와 상관없이 원본의 배경과 움직임을 추출하도록 유도한다.

추론 시에는 FLUX.1 Kontext Inpainting 모델을 활용해 첫 프레임에 맞춰 나머지 키프레임들을 순차적으로 편집함으로써 스타일 일관성을 확보한다. 이후 81프레임 길이의 비디오를 832x480 해상도에서 한 번에 생성한다.

한계점

편집된 키프레임 앵커의 품질에 성능이 크게 좌우된다. 현재의 이미지 편집 모델이 고품질 키프레임을 한 번에 생성하지 못할 경우, 사용자의 반복적인 개입이 필요할 수 있다.

키워드

Video Editing(비디오 편집)Unpaired Learning(비페어 학습)Diffusion Model(확산 모델)Temporal Consistency(시간적 일관성)DiT(확산 트랜스포머)