핵심 요약
기존 비디오 생성 모델은 영상이 길어질수록 내용이 산으로 가거나 캐릭터의 모습이 변하는 문제가 있었다. 이 논문은 에이전트 구조를 도입해 기억을 관리하고 스스로 오류를 수정함으로써 10분 분량의 긴 영상에서도 일관된 서사를 유지하는 방법을 제시한다.
왜 중요한가
기존 비디오 생성 모델은 영상이 길어질수록 내용이 산으로 가거나 캐릭터의 모습이 변하는 문제가 있었다. 이 논문은 에이전트 구조를 도입해 기억을 관리하고 스스로 오류를 수정함으로써 10분 분량의 긴 영상에서도 일관된 서사를 유지하는 방법을 제시한다.
핵심 기여
에이전트 기반 자기회귀 확산 아키텍처
창의적 생성과 일관성 유지를 분리하여, 비디오를 세그먼트 단위로 생성하고 스스로 개선하는 Retrieve-Synthesize-Refine-Update 루프를 구축했다.
멀티모달 비디오 메모리(MVMem)
단순 시각 정보뿐만 아니라 텍스트 상태(Visual Arcs, 공간 관계, 카메라 궤적)를 함께 저장하여 긴 시간 동안 엔티티와 서사의 흐름을 추적한다.
계층적 테스트 타임 자기 개선(HITS)
프레임 및 비디오 수준에서 다차원 루브릭을 기반으로 생성물을 검증하고, 오류가 발견되면 프롬프트를 최적화하거나 재생성하여 오류 전파를 차단한다.
LVbench-C 벤치마크 구축
엔티티가 사라졌다가 다시 나타나거나 상태가 변하는 복잡한 시나리오를 포함한 벤치마크를 통해 장기 일관성 성능을 엄격하게 측정한다.
핵심 아이디어 이해하기
기존의 비디오 생성은 이전 프레임을 고정된 조건으로 사용하는 '오픈 루프' 방식이었다. 이는 초기 프레임의 작은 오류가 뒤로 갈수록 증폭되어 결국 전체 서사가 붕괴되는 결과를 초래한다. 마치 긴 문장을 쓸 때 앞 내용을 잊어버리면 뒤 내용이 엉뚱해지는 것과 같다.
A2RD는 이를 해결하기 위해 생성 과정을 '에이전트의 의사결정'으로 재정의한다. 모델은 단순히 다음 장면을 그리는 것이 아니라, 메모리에서 과거 정보를 '검색(Retrieve)'하고, 현재 장면이 이전과 이어지는지 '판단'하며, 생성된 결과물이 논리적으로 맞지 않으면 스스로 '수정(Refine)'한다. 특히 텍스트 기반의 상태 정보를 활용해 '이 캐릭터는 지금 빨간 옷을 입고 있다'는 사실을 명시적으로 기억한다.
결과적으로 생성된 영상은 단순한 픽셀의 연속이 아니라, 일관된 설정과 논리를 가진 하나의 이야기로 완성된다. 실험 결과 5분 이상의 영상에서도 캐릭터의 정체성과 배경의 일관성이 기존 모델 대비 최대 30% 이상 향상되었다.
방법론
A2RD는 세그먼트 단위의 자기회귀 생성을 수행하며, 각 단계는 네 가지 핵심 과정을 거친다. 첫째, MVMem에서 현재 장면과 관련된 텍스트 상태, 참조 프레임, 이전 비디오 클립을 검색한다. 둘째, Adaptive Segment Generation 모듈이 현재 장면이 이전 장면과 공간적/시간적으로 연속되는지 판단하여 보간(Interpolation) 또는 외삽(Extrapolation) 모드를 선택한다.
셋째, 선택된 모드에 따라 경계 프레임을 먼저 생성하고 HITS(Frame) 과정을 통해 검증한다. 8가지 루브릭 점수를 기반으로 MLLM이 프레임의 물리적 타당성과 일관성을 평가하며, 점수가 낮으면 MAPO(Memory-Augmented Prompt Optimization)를 통해 프롬프트를 수정하여 재생성한다. 넷째, 확정된 경계 프레임을 바탕으로 전체 비디오 세그먼트를 생성하고 HITS(Video)를 통해 다시 한번 검증 및 개선 과정을 거친 후 메모리를 업데이트한다.
MAPO는 과거의 성공 및 실패 사례를 데이터베이스화하여 활용한다. [실패한 프롬프트와 낮은 루브릭 점수 → MLLM의 원인 분석 → 개선된 프롬프트 지침 생성] 과정을 통해 다음 생성 시 동일한 실수를 반복하지 않도록 프롬프트를 최적화한다.
관련 Figure

입력값(사용자 컨텍스트, 스토리라인)이 메모리 초기화를 거쳐 에이전트 생성 파이프라인으로 들어가는 과정을 보여준다. MVMem과 HITS 루프가 어떻게 상호작용하며 최종 영상을 완성하는지 도식화되어 있다.
A2RD의 전체 아키텍처 개요도.
주요 결과
VBench-Long(1분 영상) 실험에서 A2RD는 서사 일관성 0.9점을 기록하며 기존 최고 모델(0.75점)을 크게 앞질렀다. 특히 캐릭터 일관성에서 30%, 환경 일관성에서 20% 이상의 성능 향상을 보였다. 5분 이상의 다중 장면 생성을 다루는 LVbench-C에서도 타 모델들이 0.4 이하의 낮은 일관성을 보일 때, A2RD는 0.9 이상의 높은 점수를 유지했다.
인간 평가에서도 5점 만점에 평균 4.68점을 기록하여 VideoMemory(3.93점) 등 기존 SOTA 모델들을 압도했다. 특히 장면 전환의 부드러움과 캐릭터 정체성 유지 항목에서 높은 만족도를 보였다. Ablation Study 결과, MVMem의 텍스트 상태 정보가 서사 구조 유지에 가장 결정적인 역할을 함이 증명되었다.
관련 Figure

정적인 장면부터 역동적인 다중 샷 환경까지 캐릭터와 배경이 일관되게 유지됨을 보여준다. 특히 5분 길이의 '피아니스트 클라라' 시나리오에서 장소 변화에도 불구하고 인물의 특징이 보존된다.
A2RD로 생성된 1분 및 5분 길이의 비디오 스토리보드 예시.

테스트 타임 스케일링(TTS)을 통해 생성 후보를 늘릴수록 A2RD의 일관성과 서사 품질이 다른 모델들보다 훨씬 가파르게 상승함을 보여준다.
세그먼트당 생성 비디오 수에 따른 일관성 성능 변화 그래프.
기술 상세
A2RD 아키텍처는 MLLM(Gemini 3 Flash), TI2I(Nano Banana 2), TI2V(Veo 3.1) 모델을 에이전트 루프 내에서 통합 운영한다. 핵심은 비디오의 상태를 'Visual Arcs', 'Spatial Relations', 'Camera Trajectories'라는 세 가지 추상화된 텍스트 계층으로 관리한다는 점이다. 이는 픽셀 수준의 참조가 가진 모호성을 극복하고 명시적인 제어를 가능하게 한다.
테스트 타임 최적화 기법인 HITS는 비디오 생성 비용을 고려하여 효율적으로 설계되었다. 모든 프레임을 재생성하는 대신, 문제가 되는 세그먼트의 프롬프트만 타겟팅하여 수정하거나 경계 프레임을 다시 잡는 방식을 취한다. 또한 MAPO를 통해 인컨텍스트 학습(In-context Learning) 효과를 극대화하여 적은 반복 횟수로도 고품질의 일관성을 확보한다.
한계점
에이전트 기반의 반복적 검증 및 재생성 과정을 거치므로 기존의 단발성 생성 모델보다 계산 비용과 시간이 더 많이 소요된다. 또한 MLLM의 추론 능력에 의존하므로, 아주 미세한 시각적 불일치를 MLLM이 감지하지 못할 경우 오류가 잔존할 수 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.