핵심 요약
기존 AI 영상 편집은 짧은 클립 처리에 국한되었으나, CutClaw는 수 시간 분량의 원본 영상을 사용자의 지시사항과 음악 리듬에 맞춰 자동으로 고품질 단편 영상으로 제작한다. 이는 전문 영상 제작자의 반복적인 편집 노동을 획기적으로 줄이고 음악과 영상의 정밀한 조화를 자동화하는 데 기여한다.
왜 중요한가
기존 AI 영상 편집은 짧은 클립 처리에 국한되었으나, CutClaw는 수 시간 분량의 원본 영상을 사용자의 지시사항과 음악 리듬에 맞춰 자동으로 고품질 단편 영상으로 제작한다. 이는 전문 영상 제작자의 반복적인 편집 노동을 획기적으로 줄이고 음악과 영상의 정밀한 조화를 자동화하는 데 기여한다.
핵심 기여
장시간 영상 편집을 위한 멀티 에이전트 프레임워크 CutClaw 제안
수 시간 분량의 원본 영상을 처리하기 위해 Playwriter, Editor, Reviewer 에이전트가 협업하는 계층적 구조를 설계하여 복잡한 편집 워크플로우를 자동화했다.
음악 구조 기반의 계층적 멀티모달 분해 기법 도입
영상을 샷(Shot)과 씬(Scene) 단위로, 음악을 비트와 섹션 단위로 분해하여 MLLM의 컨텍스트 윈도우 한계를 극복하고 정밀한 오디오-비주얼 정렬을 가능하게 했다.
음악 앵커 기반의 서사 계획 및 정밀 편집 메커니즘
음악의 리듬과 감정적 흐름을 고정된 시간축(Anchor)으로 삼아 영상의 서사를 배치하고, ReAct 에이전트 기반의 Editor가 최적의 컷을 탐색 및 추출하도록 구현했다.
기존 SOTA 대비 우수한 오디오-비주얼 조화 성능 입증
영화 및 VLOG 데이터셋 실험 결과, 시각적 품질과 지시사항 이행도뿐만 아니라 음악 비트와의 동기화(AV Harmony) 지표에서 기존 모델들을 크게 상회하는 성능을 보였다.
핵심 아이디어 이해하기
기존의 Multimodal Language Model(MLLM)은 수 시간 분량의 고해상도 영상을 한 번에 처리하기에는 컨텍스트 윈도우가 턱없이 부족하다. 이를 해결하기 위해 CutClaw는 방대한 영상을 '샷'과 '씬'이라는 구조화된 의미 단위로 먼저 요약하여 관리한다. 이는 마치 두꺼운 책을 읽기 전 목차와 요약본을 먼저 만드는 것과 같다.
편집의 핵심 기준은 '음악'이다. 음악은 영상보다 구조가 명확하므로, 음악의 비트와 섹션(절, 후렴 등) 정보를 추출하여 이를 영상이 배치될 '틀'로 사용한다. Playwriter 에이전트는 이 음악적 틀 위에 사용자의 지시사항을 반영한 시나리오를 작성하고, 어떤 장면이 어느 음악 구간에 들어갈지 결정한다.
마지막으로 실제 편집은 Editor와 Reviewer의 협업으로 완성된다. Editor는 제안된 장면 후보군 중에서 음악 비트에 딱 맞는 시작점과 끝점을 정밀하게 깎아내고, Reviewer는 결과물이 미학적으로 우수한지, 주인공이 잘 보이는지 검증한다. 이러한 계층적 접근을 통해 단순한 클립 이어붙이기를 넘어 전문적인 수준의 리듬감 있는 영상 편집을 구현한다.
방법론
전체 시스템은 Bottom-Up Multimodal Footage Deconstruction으로 시작한다. 원본 영상 V를 샷 단위로 분할하고 Qwen3-VL을 사용하여 각 샷의 특징(인물, 동작, 환경)을 캡셔닝한다. 이후 유사한 샷들을 씬(Scene)으로 묶어 검색 가능한 후보군을 형성한다. 음악 M은 비트 단위의 Keypoints와 섹션 단위의 Units로 분해하여 시간적 앵커를 생성한다.
Playwriter 에이전트는 Gemini 3 Pro를 기반으로 음악 구조 U를 시간적 뼈대로 삼아 서사 계획을 수립한다. [사용자 지시사항 I와 씬 정보 Z 입력 -> 음악 섹션별 씬 할당 및 샷 계획 생성 -> Shot Plan Pj 출력 -> 음악의 흐름과 일치하는 서사 구조 확보 의미]. 이때 서로 다른 음악 섹션에 동일한 영상 소스가 중복 할당되지 않도록 배타적 자원 할당 제약 조건을 적용한다.
Editor 에이전트는 MiniMax M2.1을 사용하여 구체적인 컷을 추출한다. ReAct 패턴을 통해 시각적 품질(Qvis)과 리듬 동기화(Qsync)를 극대화하는 구간 ci를 탐색한다. [할당된 씬과 목표 시간 τi 입력 -> VLM 기반의 정밀 시간 접지 수행 -> 최적의 컷 ci* 출력 -> 미학적 점수와 주인공 노출도가 가장 높은 구간 선택 의미].
Reviewer 에이전트는 다중 기준 유효성 검증 게이트를 운영한다. 추출된 컷이 주인공 정체성과 일치하는지, 영상 품질이 방송 수준인지, 음악 비트와 정확히 일치하는지 rejection sampling 기법으로 검사한다. 부적합 판정 시 Editor에게 피드백을 전달하여 재탐색을 유도하며, 최종적으로 최적화된 타임라인 E*를 완성한다.
주요 결과
5편의 장편 영화와 5편의 VLOG(총 24시간 분량)를 포함한 벤치마크에서 실험을 진행했다. CutClaw는 Visual Quality, Instruction Follow, AV Harmony의 모든 지표에서 NarratoAI, UVCOM, Time-R1 등 기존 SOTA 모델들을 일관되게 능가했다. 특히 AV Harmony 지표에서 86.5점을 기록하여 음악 리듬과의 정밀한 동기화 능력을 입증했다.
Ablation study 결과, Reviewer 모듈을 제거했을 때 시각적 품질이 77.6에서 76.0으로 하락했으며, 음악의 비트 분석을 제외했을 때 AV Harmony 점수가 86.5에서 77.2로 급감했다. 이는 각 에이전트와 음악 앵커링 기술이 고품질 편집에 필수적임을 보여준다.
25명의 참가자를 대상으로 한 사용자 선호도 조사에서 CutClaw는 시각적 품질(49.8%), 지시사항 이행(50.2%), 음악 조화(53.0%), 인간 유사성(48.8%) 모든 항목에서 가장 높은 투표를 받았다. 이는 기존 자동 편집 도구들보다 2배 이상 높은 수치로, 실제 사용자가 느끼는 편집의 자연스러움이 탁월함을 의미한다.
기술 상세
CutClaw의 아키텍처는 장기 컨텍스트 처리를 위한 계층적 검색 및 최적화 구조를 가진다. 전체 편집 문제는 시각적 품질, 서사 일관성, 지시사항 충실도, 리듬 동기화라는 네 가지 항을 가진 Joint Objective Function을 최대화하는 문제로 정형화된다.
음악 분석 단계에서는 Hierarchical Keypoint Detection을 통해 다운비트, 피치 변화, 스펙트럼 에너지 변화를 감지한다. [음악 신호 입력 -> 가중치 기반 중요도 점수 계산 -> 주요 컷 포인트 추출 -> 시각적 전환점의 후보지로 활용 의미]. 이를 통해 단순한 비트 매칭을 넘어 음악의 감정적 고조와 영상의 극적 전환을 일치시킨다.
서사적 일관성을 위해 Character-Aware Grounding 기법을 사용한다. 대화 텍스트(ASR)를 분석하여 캐릭터의 이름과 역할을 식별하고, 이를 MLLM의 텍스트 조건으로 주입하여 '한 남자' 대신 '조커'와 같은 구체적인 페르소나를 추적하도록 한다. 이는 여러 씬에 걸쳐 동일 인물을 일관되게 편집하는 데 결정적인 역할을 한다.
구현 측면에서 Editor와 Reviewer는 MiniMax M2.1을, Playwriter는 Gemini 3 Pro를 사용하며, 전처리 과정에서 PySceneDetect와 Whisper-v3-turbo를 활용한다. 추론 효율성을 위해 영상은 360p 해상도와 2 FPS로 다운샘플링하여 처리한다.
한계점
현재 시스템은 시각 효과(VFX) 생성이나 특정 독백 구간의 지능적인 강조와 같은 고급 편집 기술은 포함하고 있지 않다. 또한 다단계 에이전트 파이프라인으로 인해 수 시간의 영상을 처리할 때 발생하는 추론 지연 시간(Latency)이 실시간 피드백을 주기에는 다소 높다는 한계가 있다.
실무 활용
영화 예고편 제작, VLOG 하이라이트 생성, 음악 비트에 맞춘 SNS 숏폼 콘텐츠 제작 등 전문적인 영상 편집 워크플로우에 즉시 활용 가능하다.
- 수 시간의 영화 원본에서 특정 캐릭터 중심의 음악 동기화 하이라이트 영상 자동 생성
- 긴 여행 VLOG를 선택한 배경 음악의 리듬과 구조에 맞춰 감각적인 요약 영상으로 변환
- 사용자의 텍스트 지시사항에 따라 특정 분위기나 테마를 가진 홍보 영상 자동 편집
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.