CutClaw: 음악 동기화를 통한 에이전트 기반의 장시간 비디오 편집

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 비디오 편집 AI는 짧은 영상 처리에 국한되었으나, CutClaw는 수 시간 분량의 푸티지를 분석하여 음악 리듬과 사용자 지시에 완벽히 부합하는 요약 영상을 생성한다. 이는 영화 제작이나 콘텐츠 크리에이티브 분야에서 발생하는 막대한 수동 편집 노동을 자동화하여 생산성을 획기적으로 높일 수 있는 기술적 토대를 마련했다.

왜 중요한가

핵심 기여

자율형 멀티 에이전트 편집 프레임워크 구축

Playwriter, Editor, Reviewer라는 세 가지 전문 에이전트가 협업하여 시나리오 작성부터 정밀 컷 편집, 품질 검수까지 이어지는 전문 영상 제작 워크플로우를 모사했다.

계층적 멀티모달 푸티지 분해 기법

수 시간의 영상을 샷(Shot)과 장면(Scene) 단위로, 음악을 섹션(Section) 단위로 구조화하여 MLLM의 컨텍스트 윈도우 한계를 극복하고 장기적인 서사 구조를 유지했다.

음악 앵커 기반의 시청각 동기화 최적화

음악의 비트와 섹션 구조를 시간적 뼈대로 삼아 영상의 시각적 전환점을 배치함으로써, 시각적 서사와 청각적 리듬이 유기적으로 조화를 이루는 결과물을 생성했다.

핵심 아이디어 이해하기

기존의 멀티모달 모델(MLLM)은 한 번에 처리할 수 있는 데이터 양이 제한되어 있어 수 시간 분량의 영상을 직접 편집하기 어렵다. CutClaw는 이를 해결하기 위해 영상을 '단어'에 해당하는 샷(Shot)으로 쪼개고, 이를 다시 '문단'에 해당하는 장면(Scene)으로 묶는 계층적 구조를 도입했다. 이는 마치 긴 소설을 요약할 때 챕터별로 먼저 내용을 파악하는 것과 같은 원리이다.

단순히 영상을 요약하는 것에 그치지 않고 배경 음악을 편집의 '절대적인 기준점'으로 삼는다. 음악의 드럼 비트나 멜로디의 변화 지점을 추출하여 영상이 전환되어야 할 위치를 미리 정해두고, 그 빈칸에 사용자의 지시사항과 가장 잘 어울리는 영상 장면을 끼워 넣는 방식을 취한다.

이 과정에서 세 명의 가상 전문가(에이전트)가 소통한다. 작가는 음악에 맞춰 전체적인 이야기 흐름을 짜고, 편집자는 수천 개의 영상 조각 중 가장 적합한 것을 골라 정교하게 다듬으며, 검토자는 주인공이 잘 나왔는지 혹은 화질이 나쁘지 않은지 최종 확인한다. 이러한 협업 구조를 통해 AI는 단순한 이어붙이기를 넘어 전문 편집자의 논리를 모사하게 된다.

방법론

전체 시스템은 '상향식 분해(Bottom-Up Deconstruction)'와 '하향식 편집(Top-Down Editing)'의 두 단계로 구성된다. 먼저 원본 영상 V를 PySceneDetect를 이용해 원자 단위인 샷 S로 분할한다. 각 샷에 대해 MLLM을 사용하여 구도, 인물, 감정 등의 속성 A(s)를 추출한다. 인접한 샷 사이의 속성 유사도 벡터 v와 가중치 α를 내적하여 $Sim(s_i, s_{i+1}) = ext{α}^ op ext{v}_{i,i+1}$ 를 계산하고, 이 값이 임계값 τ보다 낮아지는 지점을 장면(Scene) 경계로 설정하여 영상을 구조화한다.

음악 분석 단계에서는 Downbeats, Pitch Changes, Spectral Energy 세 가지 요소를 결합하여 사운드 키포인트 K를 추출한다. [오디오 파형 입력 → 주파수 및 에너지 변화 연산 → 시간대별 강도 수치 출력 → 주요 전환점 식별] 과정을 거쳐 음악을 섹션 단위로 나눈다. Playwriter 에이전트는 이 음악 섹션을 시간적 앵커로 활용하여 각 구간에 배치할 장면 후보군을 할당하는 '샷 플랜'을 생성한다.

최종 편집 단계에서 Editor 에이전트는 ReAct 패턴을 통해 후보 장면 내에서 정밀한 시간 좌표를 결정한다. 이때 미학적 점수 $S_{aes}$ 와 주인공 등장 비율 $R_{prot}$ 를 가중합한 로컬 스코어를 최대화하는 서브 세그먼트를 찾는다. Reviewer 에이전트는 이 결과물이 중복되지 않는지(Non-Overlap), 음악 비트와 정확히 일치하는지(Duration Fidelity)를 검증하며, 기준 미달 시 Editor에게 피드백을 주어 재탐색을 유도하는 거부 샘플링(Rejection Sampling)을 수행한다.

주요 결과

5편의 장편 영화와 5개의 긴 VLOG(총 24시간 분량)를 대상으로 한 실험에서 CutClaw는 기존 SOTA 모델들을 모든 지표에서 압도했다. 특히 시각적 품질(Visual Quality)과 지시사항 이행(Instruction Follow) 측면에서 GPT-5.2 기반 평가 결과 가장 높은 점수를 기록했다.

음악과 영상의 조화도를 측정하는 AV Harmony 지표에서 기존 모델들이 음악 구조를 무시하고 고정된 길이로 영상을 자르는 것과 달리, CutClaw는 음악의 비트와 영상의 컷 전환점 사이의 오차(Δt)를 0.1초 이내로 유지하는 정밀함을 보였다.

사용자 선호도 조사 결과, CutClaw가 생성한 영상은 48.8%의 선택을 받아 2위 모델(Time-R1, 21.4%) 대비 두 배 이상의 선호도를 기록했다. 이는 AI가 생성한 편집 결과물이 인간 전문가의 편집 논리와 가장 유사함을 입증한다.

기술 상세

CutClaw의 핵심 아키텍처는 역할이 분리된 멀티 에이전트 시스템이다. Playwriter는 Gemini 3 Pro를 사용하여 전체적인 서사 구조를 기획하고, Editor와 Reviewer는 MiniMax M2.1을 기반으로 실행 및 검증을 담당한다. 시각적 이해와 음악 캡셔닝에는 각각 Qwen3-VL-30B와 Qwen3-Omni-30B가 사용되어 고차원의 멀티모달 추론을 지원한다.

수학적으로 편집 타임라인 $\mathcal{E}^*$ 는 시각적 미학( $Q_{vis}$ ), 서사적 흐름( $Q_{narr}$ ), 지시사항 정렬( $Q_{cond}$ ), 리듬 동기화( $Q_{sync}$ ) 네 가지 항의 가중합을 최대화하는 최적화 문제로 정의된다. 이를 해결하기 위해 전체 탐색 공간을 브루트 포스로 뒤지는 대신, 계층적 분해를 통해 후보군을 좁히고 에이전트 간 피드백 루프를 통해 국소 최적해를 찾아가는 전략을 취한다.

구현 측면에서는 계산 효율성을 위해 영상을 360p, 2 FPS로 다운샘플링하여 처리하며, Whisper-v3-turbo를 통한 음성 인식(ASR)으로 대사 내용을 파악해 인물의 정체성을 유지하는 'Identity Injection' 기법을 적용하여 서사의 일관성을 확보했다.

한계점

현재 시스템은 시각적 효과(VFX) 생성이나 특정 독백 구간을 강조하는 등의 고급 편집 기술은 포함하지 않고 있다. 또한 다단계 에이전트 파이프라인의 특성상 추론 지연 시간(Latency)이 길어 실시간 피드백이 어렵다는 한계가 있으며, 향후 이를 개선하기 위한 실시간 처리 전략 연구가 필요하다.

키워드

MLLM(멀티모달 대형 언어 모델)Video Editing(비디오 편집)Music Synchronization(음악 동기화)Multi-Agent(멀티 에이전트)Temporal Grounding(시간적 접지)