SAMA: 지시어 기반 비디오 편집을 위한 분해된 시맨틱 앵커링 및 모션 정렬

기존 비디오 편집 모델은 텍스트 지시를 따르면서도 원본의 움직임을 유지하는 데 어려움을 겪었으며, 외부 데이터에 과하게 의존하는 한계가 있었다. SAMA는 편집 계획과 움직임 학습을 분리하여 외부 정보 없이도 정밀한 편집과 자연스러운 움직임을 동시에 구현한다. 이는 고성능 비디오 편집 기술의 대중화와 효율적인 학습 방법론을 제시한다는 점에서 중요하다.

핵심 요약

왜 중요한가

핵심 기여

시맨틱 앵커링과 모션 모델링의 분해 프레임워크 제안

비디오 편집 과정을 구조적 계획을 담당하는 Semantic Anchoring과 시간적 역동성을 담당하는 Motion Alignment로 분리하여 모델의 견고성과 일반화 성능을 향상시켰다.

모션 중심의 비디오 복원 사전 학습 과제 도입

Cube inpainting, speed perturbation, tube shuffle과 같은 pretext task를 통해 모델이 외부 가이드 없이도 원본 비디오에서 직접 시간적 일관성을 내재화하도록 설계했다.

2단계 최적화 파이프라인 및 제로샷 편집 능력 입증

분해된 사전 학습과 지도 학습 기반 미세 조정을 결합한 파이프라인을 구축했으며, 사전 학습만으로도 강력한 제로샷 비디오 편집 성능이 나타남을 확인했다.

핵심 아이디어 이해하기

비디오 편집은 각 프레임의 의미를 바꾸는 것과 프레임 간의 움직임을 유지하는 것 사이의 균형이 핵심이다. 기존의 Diffusion 기반 모델들은 이 두 요소를 한꺼번에 처리하려다 보니, 편집 강도를 높이면 움직임이 깨지고 움직임을 강조하면 편집이 제대로 반영되지 않는 딜레마에 빠졌다. 특히 외부의 뼈대 정보나 깊이 맵에 의존하는 방식은 모델이 스스로 비디오의 본질적인 특성을 배우는 것을 방해했다.

SAMA는 이 문제를 해결하기 위해 시맨틱 앵커링과 모션 정렬이라는 두 가지 독립적인 능력을 모델에 심어준다. 시맨틱 앵커링은 비디오의 핵심 프레임에서 의미론적 토큰을 추출하여 편집의 기준점을 잡는 방식이다. 이는 마치 건물을 짓기 전 설계도를 그리는 것과 같아서, 전체 비디오의 구조적 변화를 미리 계획할 수 있게 한다.

동시에 모션 정렬은 비디오의 일부분을 가리거나 순서를 섞는 등의 복원 문제를 풀게 함으로써, 모델이 비디오의 자연스러운 흐름과 물리적 법칙을 스스로 깨우치게 만든다. 결과적으로 모델은 텍스트 지시어에 따라 정확하게 내용을 바꾸면서도, 원본 비디오가 가진 고유의 역동성을 잃지 않고 매끄럽게 연결된 영상을 생성할 수 있게 된다.

방법론

SAMA는 Flow Matching 패러다임을 따르는 Video Diffusion Transformer(DiT) 아키텍처를 기반으로 설계되었다. 입력 비디오 $V_s$ 와 지시어 $y$ 를 받아 타겟 비디오 $V_t$ 를 생성하며, 이를 위해 소스 비디오 토큰 $z_s$ 와 노이즈가 섞인 타겟 토큰 $z_t$ 를 결합하여 DiT 블록에 입력한다.

Semantic Anchoring(SA)은 타겟 비디오에서 샘플링된 $N$ 개의 앵커 프레임을 SigLIP 인코더로 처리하여 시맨틱 특징을 추출한다. 추출된 특징은 MLP를 통해 잠재 공간으로 투영되어 시맨틱 토큰 $\hat{s}$ 가 되고, 이는 타겟 잠재 시퀀스 앞에 추가되어 노이즈 제거 과정에 참여한다. 최종 DiT 레이어에서 예측된 토큰 $s$ 와 실제 토큰 사이의 $\ell_1$ 손실을 계산하여 구조적 일관성을 강제한다. [앵커 프레임 입력 → SigLIP 인코딩 → 시맨틱 토큰 생성 → 타겟 시퀀스와 결합 및 예측 → 구조적 가이드 역할 수행]

Motion Alignment(MA)는 소스 비디오에 세 가지 변형(Cube Inpainting, Speed Perturbation, Tube Shuffle)을 가한 뒤 이를 복원하는 Pretext Task를 수행한다. Cube Inpainting은 특정 시간/공간 블록을 마스킹하고 복원하게 하여 공간적 채우기 능력을 기르며, Speed Perturbation은 재생 속도 변화를 감지하게 하여 시간적 흐름을 학습시킨다. [변형된 소스 비디오 → DiT 입력 → 원본 모션 복원 → 시간적 역동성 내재화]

학습은 2단계로 진행된다. 0단계(Factorized Pre-training)에서는 대규모 텍스트-비디오 데이터와 이미지 편집 데이터를 사용하여 SA와 MA를 학습하며, 1단계(Supervised Fine-tuning)에서는 실제 비디오 편집 쌍 데이터를 사용하여 최종적인 편집 품질을 정교화한다.

주요 결과

SAMA는 VIE-Bench, OpenVE-Bench, ReCo-Bench 등 주요 벤치마크에서 오픈소스 모델 중 최고 성능(SOTA)을 기록했다. 특히 VIE-Bench의 'Swap/Change' 및 'Remove' 카테고리에서 각각 9.340점과 9.144점의 평균 점수를 획득하여 Kling-Omni와 같은 상용 모델과 대등하거나 이를 능가하는 결과를 보여주었다.

Ablation Study 결과, SA와 MA 모듈을 모두 사용했을 때 성능 향상이 가장 뚜렷했다. SA는 학습 수렴 속도를 높이고 손실 함수의 분산을 줄여 안정적인 학습을 도왔으며, MA는 빠른 움직임이나 복잡한 카메라 워크가 포함된 장면에서 배경의 선명도와 움직임의 일관성을 크게 개선했다.

사전 학습 단계(Stage 0)만 거친 모델도 강력한 제로샷(Zero-shot) 비디오 편집 능력을 보여주었다. 이는 모델이 명시적인 편집 데이터 없이도 시맨틱 구조와 모션 역학을 분리하여 학습함으로써 편집 의도를 자연스럽게 파악할 수 있음을 입증한다.

실무 활용

SAMA는 고품질의 비디오 편집을 지원하며, 특히 객체 제거, 스타일 변환, 속성 변경 등 다양한 편집 시나리오에서 뛰어난 성능을 발휘한다. 오픈소스 모델로서 상용 서비스 수준의 결과물을 제공하므로 창작자 및 개발자들이 자유롭게 활용할 수 있다.

영화나 광고 영상에서 특정 객체를 자연스럽게 제거하거나 다른 객체로 교체
일반 영상을 수채화나 픽셀 아트 등 특정 예술적 스타일로 변환
영상 속 인물의 의상 색상이나 헤어스타일을 텍스트 지시만으로 정밀하게 수정
복잡한 움직임이 포함된 스포츠 영상에서 배경을 유지하며 특정 동작만 강조하거나 변경

기술 상세

SAMA의 아키텍처는 Wan2.1-T2V-14B 모델을 기반으로 하며, 소스 비디오와 타겟 비디오를 VAE 잠재 공간으로 인코딩하여 처리한다. 각 토큰의 역할을 구분하기 위해 Type Embedding을 도입하여 소스(ID 0), 시맨틱(ID 1), 타겟(ID 2) 토큰을 명확히 식별하며, 이는 기존의 Shifted RoPE 방식보다 빠른 수렴과 배경 보존 성능을 제공한다.

Semantic Anchoring 메커니즘은 SigLIP-L/14 인코더를 사용하여 패치 레벨의 시맨틱 특징을 추출한다. 추출된 특징은 풀링을 통해 $M$ 개의 로컬 토큰과 1개의 글로벌 토큰으로 압축되며, 가벼운 2레이어 MLP를 통해 VAE 잠재 공간과 동일한 차원으로 투영된다. 이 토큰들은 타겟 시퀀스의 접두사(Prefix)로 작용하여 디노이징 과정을 가이드한다.

Motion Alignment를 위한 Pretext Task는 소스 비디오 스트림에만 적용된다. Cube Inpainting은 30%의 마스킹 비율을 사용하고, Speed Perturbation은 2배 속도 가속을 적용하며, Tube Shuffle은 비디오를 $2 \times 2 \times 2$ 시공간 튜브로 나누어 무작위로 섞는다. 이러한 설계는 모델이 외부의 구조적 가이드 없이도 원시 비디오에서 직접 시간적 일관성을 학습하도록 강제한다.

학습 전략 측면에서, Stage 0 사전 학습 시에는 NHR-Edit, Koala-36M 등 대규모 데이터셋을 혼합하여 사용하며, Flow Matching 손실과 시맨틱 예측 손실( $\ell_1$ )을 결합한 통합 목적 함수를 최소화한다. Stage 1 SFT 단계에서는 Ditto-1M, OpenVE-3M 등의 고품질 편집 데이터를 활용하여 지시어 이행 능력을 극대화한다.

한계점

제로샷 설정에서는 속성 편집 시 프레임 간 색상이 미세하게 변하는 시간적 불일치가 발생할 수 있으며, 새로 추가된 객체가 다소 흐릿하게 나타나거나 객체 제거 후 잔상이 남는 고스팅(Ghosting) 현상이 보고되었다.

키워드

Video Editing(비디오 편집)Semantic Anchoring(시맨틱 앵커링)Motion Alignment(모션 정렬)Diffusion Transformer(디퓨전 트랜스포머)Flow Matching(플로우 매칭)Zero-shot Learning(제로샷 학습)

SAMA: 지시어 기반 비디오 편집을 위한 분해된 시맨틱 앵커링 및 모션 정렬

핵심 요약

왜 중요한가

핵심 기여

시맨틱 앵커링과 모션 모델링의 분해 프레임워크 제안

모션 중심의 비디오 복원 사전 학습 과제 도입

2단계 최적화 파이프라인 및 제로샷 편집 능력 입증

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

영화나 광고 영상에서 특정 객체를 자연스럽게 제거하거나 다른 객체로 교체
일반 영상을 수채화나 픽셀 아트 등 특정 예술적 스타일로 변환
영상 속 인물의 의상 색상이나 헤어스타일을 텍스트 지시만으로 정밀하게 수정
복잡한 움직임이 포함된 스포츠 영상에서 배경을 유지하며 특정 동작만 강조하거나 변경

SAMA: 지시어 기반 비디오 편집을 위한 분해된 시맨틱 앵커링 및 모션 정렬

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

SAMA: 지시어 기반 비디오 편집을 위한 분해된 시맨틱 앵커링 및 모션 정렬

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글