핵심 요약
기존의 비디오 생성 AI는 긴 서사를 만들 때 앞뒤 문맥이 어긋나는 '시맨틱 드리프트' 현상이 잦았다. 이 논문은 비디오 제작 과정을 여러 에이전트의 협업과 수학적 최적화 문제로 정의하여, 사람이 감독하는 것처럼 일관성 있고 창의적인 고품질 영상을 자동으로 생성하는 프레임워크를 제시한다.
왜 중요한가
기존의 비디오 생성 AI는 긴 서사를 만들 때 앞뒤 문맥이 어긋나는 '시맨틱 드리프트' 현상이 잦았다. 이 논문은 비디오 제작 과정을 여러 에이전트의 협업과 수학적 최적화 문제로 정의하여, 사람이 감독하는 것처럼 일관성 있고 창의적인 고품질 영상을 자동으로 생성하는 프레임워크를 제시한다.
핵심 기여
Co-Director 계층적 멀티 에이전트 아키텍처
비디오 스토리텔링을 글로벌 최적화 문제로 정형화하고, 오케스트레이터, 프리프로덕션, 프로덕션, 포스트프로덕션 에이전트로 구성된 계층 구조를 통해 복잡한 영상 제작 공정을 자동화한다.
Multi-Armed Bandit 기반의 창의적 방향성 제어
비선형적인 창의적 탐색 과정을 MAB 알고리즘으로 모델링하여, 다양한 서사 전략을 탐색(Exploration)하고 효과적인 스타일 설정을 활용(Exploitation)함으로써 최적의 영상 구성을 찾아낸다.
MLLM 기반의 로컬 자기 개선 루프
스토리라인과 키프레임 생성 단계에서 Multimodal LLM을 활용한 피드백 루프를 도입하여, 캐릭터의 외형이 변하거나 배경이 급격히 바뀌는 오류를 실시간으로 교정한다.
GenAd-Bench 데이터셋 및 평가 프레임워크
가상의 브랜드와 제품을 포함한 400개의 시나리오로 구성된 벤치마크를 구축하여, AI가 기존 학습 데이터를 단순히 암기하여 출력하는 편향을 배제하고 순수한 추론 능력을 측정한다.
핵심 아이디어 이해하기
기존의 비디오 생성 파이프라인은 'A를 하면 B가 나온다'는 식의 선형적인 구조여서 초기 단계의 작은 실수가 뒤로 갈수록 커지는 'Cascading Failure'에 취약했다. 이는 딥러닝에서 Gradient가 소실되거나 폭주하여 학습이 안 되는 것과 유사하게, 전체 영상의 일관성을 해치는 근본 원인이 된다.
Co-Director는 이를 해결하기 위해 비디오 생성을 하나의 '블랙박스 최적화' 문제로 본다. Multi-Armed Bandit(MAB)이라는 강화학습 개념을 도입하여, 어떤 창의적 전략(예: 정보 전달형 vs 감성 소구형)이 가장 높은 보상을 줄지 반복적으로 테스트한다. 이는 모델이 단순히 정해진 프롬프트를 따르는 것이 아니라, 결과물의 품질을 보고 스스로 전략을 수정하는 능력을 갖게 함을 의미한다.
또한, 생성된 결과물을 MLLM이 '감독'처럼 검토하여 '이 장면에서 주인공의 머리색이 바뀌었다'는 식의 구체적인 피드백을 주고 다시 그리게 한다. 결과적으로 기초적인 Diffusion 모델의 생성 능력을 에이전트 시스템이 고도화하여, 긴 호흡의 영상에서도 논리적이고 시각적인 일관성을 유지하게 만든다.
방법론
전체 시스템은 Orchestrator Agent가 주도하는 글로벌 최적화 루프로 구성된다. Orchestrator는 사용자의 추상적인 입력을 구조화된 제약 조건으로 변환하고, MAB를 통해 창의적 구성 요소인 θ(Creative Strategy, Narrative Mode, Aesthetic Archetype)를 샘플링한다.
Pre-production Agent는 이 θ를 입력받아 [Creative Brief → Storyline → Visual Assets → Storyboard] 순서로 상세 설계를 수행한다. 이때 Storyline 단계에서 LLM 기반의 자기 개선 루프가 작동하여 서사의 논리적 결함을 수정한다.
Production Agent는 설계된 Storyboard를 실제 미디어로 변환한다. Keyframe Agent가 첫 프레임을 생성하면 [입력: 장면 묘사 및 자산 → 연산: 이미지 생성 → 출력: 기준 키프레임] 과정을 거친다. 이후 Video Agent는 이 키프레임을 조건부 입력으로 받아 Diffusion 모델을 통해 연속된 비디오 클립을 생성하며, Audio Agent는 전체 맥락에 맞는 음향을 합성한다.
마지막으로 MLLM Judge가 최종 영상을 평가하여 보상 신호 R을 생성한다. [입력: 최종 영상 및 원본 프롬프트 → 연산: 4가지 지표 기반 점수화 → 출력: 다차원 보상 벡터] 과정을 통해 얻은 점수는 다시 MAB로 전달되어 다음 반복 회차의 전략 수립에 반영된다.
관련 Figure

오케스트레이터가 MAB를 통해 전략을 수립하고, 프리/프로/포스트 프로덕션 에이전트가 순차적으로 작업을 수행하며 MLLM Judge가 피드백을 주는 전체 루프를 보여준다. 각 단계의 에이전트가 어떻게 데이터를 주고받는지 시각화되어 있다.
Co-Director의 전체 멀티 에이전트 파이프라인 구조도
주요 결과
GenAd-Bench에서의 실험 결과, Co-Director는 평균 81.4점을 기록하며 기존 SOTA 모델인 Veo 3.1(63.6점)과 Wan 2.6(65.0점)을 크게 앞질렀다. 특히 시각적 자산의 충실도(VAF)와 인구통계학적 정렬(DA) 부문에서 각각 82.1점과 91.4점을 기록하여 정밀한 제어 능력을 입증했다.
Ablation Study를 통해 MAB 기반의 글로벌 최적화와 MLLM 기반의 로컬 개선 루프의 효과를 검증했다. 로컬 개선 루프를 제거했을 때 평균 점수가 약 10점 하락했으며, MAB 대신 무작위 탐색(Random Search)을 사용했을 때보다 훨씬 적은 반복 횟수(T=4)만으로도 최적의 성능에 도달하는 효율성을 보였다.
인간 평가(MOS)에서도 Co-Director는 5점 만점에 3.96점을 기록하여, 비교 대상 중 가장 높은 점수를 얻었으며 MLLM 기반 자동 평가 지표가 인간의 판단과 높은 상관관계(Pearson r=0.647 등)를 가짐을 확인했다.
관련 Figure

서로 다른 네 가지 시나리오에서 캐릭터의 정체성과 제품의 세부 디테일이 복잡한 조명과 각도 변화 속에서도 어떻게 유지되는지 증명한다. 특히 'Bellows Effect'와 같은 추상적 개념이 시각적으로 구현된 사례를 포함한다.
GenAd-Bench 데이터셋을 활용한 정성적 결과 예시
기술 상세
Co-Director는 비디오 생성을 비미분 가능한(Non-differentiable) 파이프라인으로 취급하고, 이를 최적화하기 위해 계층적 파라미터화(Hierarchical Parameterization)를 사용한다. MAB의 액션 공간은 마케팅 및 미디어 이론에 근거한 세 가지 축(Creative Strategy, Narrative Mode, Aesthetic Archetype)으로 정의된다.
최적화 알고리즘으로는 UCB1(Upper Confidence Bound)을 채택하여 탐색과 활용의 균형을 맞춘다. 특히 'Warm Start' 기법을 도입하여, 첫 실행 전 LLM이 사용자의 의도를 분석해 MAB의 초기 기댓값을 설정함으로써 비싼 연산 비용이 드는 비디오 생성 횟수를 최소화한다.
보상 함수는 단순 스칼라 값이 아닌 다차원 벡터 R = (rcs, rnm, raa)로 설계되어, 각 창의적 축에 대한 기여도를 개별적으로 업데이트한다. 이는 Minsky가 제기한 '신용 할당 문제(Credit Assignment Problem)'를 해결하여, 영상의 실패 원인이 스토리 전략인지, 연출 모드인지, 혹은 미적 아키타입인지를 명확히 구분할 수 있게 한다.
관련 Figure

동일한 제품 프롬프트가 Clarity/Energy, Cinematic Premium, Minimalist Focus, Kinetic Grit 등 선택된 아키타입에 따라 조명, 구도, 질감이 어떻게 다르게 표현되는지 보여준다. 시스템의 창의적 제어 능력을 시각적으로 입증한다.
미적 아키타입(Aesthetic Archetypes)에 따른 시각적 스타일 비교
한계점
논문은 Diffusion 프로세스 자체의 한계로 인해 간혹 왼쪽과 오른쪽 손을 혼동하는 등의 미세한 해부학적 오류가 발생할 수 있음을 명시했다. 또한 MLLM 평가자가 실시간 재생 영상이 아닌 프레임 단위 분석을 수행하기 때문에 인간이 느끼는 시각적 잔상 효과 등을 완벽히 반영하지 못할 가능성이 있다.
실무 활용
이 프레임워크는 고도의 일관성이 요구되는 상업 광고 제작이나 단편 영화 자동 생성 분야에 즉시 적용 가능하다.
- 가상 브랜드 자산을 활용한 맞춤형 소셜 미디어 광고 영상 자동 생성
- 추상적인 시놉시스만으로 일관된 캐릭터가 등장하는 스토리보드 및 프리비즈 영상 제작
- 다양한 마케팅 전략(정보 전달, 감성 소구 등)에 따른 동일 제품의 멀티 버전 광고 캠페인 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.