VQQA: Video Evaluation 및 Quality Improvement를 위한 Agentic Approach

왜 중요한가

Video Generation Model이 사용자의 복잡한 의도를 정확히 반영하지 못하는 문제를 해결하기 위해, AI Agent가 스스로 질문하고 답하며 영상을 개선하는 Framework를 제안한다. Model 내부 구조에 접근할 필요 없는 Black-box 방식이면서도, 단 몇 번의 반복만으로 시각적 오류를 찾아내고 수정할 수 있어 실용성이 매우 높다.

핵심 기여

VQQA Multi-agent Framework 제안

Video Evaluation을 수동적인 Benchmarking에서 동적인 질의응답 패러다임으로 전환하여 실행 가능한 피드백을 생성하는 Multi-agent 구조를 설계함.

Test-time Scaling의 텍스트 기반 최적화 공식화

Video 생성을 이산적인 Text 기반 최적화 문제로 정의하고, VLM의 비평을 Semantic Gradient로 활용하여 Prompt를 반복적으로 정제함.

Global Selection 및 동적 정지 메커니즘 도입

Semantic Drift를 방지하기 위한 Global VLM Rater와 연산 효율성을 위한 Dynamic Stopping Criterion을 도입하여 최적의 Video를 선택함.

주요 벤치마크에서의 SOTA 성능 달성

T2V-CompBench에서 +11.57%, VBench2에서 +8.43%의 절대적 성능 향상을 기록하며 기존 Prompt Optimization 기법을 압도함.

핵심 아이디어 이해하기

기존 Video Generation Model은 Diffusion이나 Transformer 구조를 통해 고해상도 영상을 만들지만, Prompt의 복잡한 세부 사항(숫자, 상호작용 등)을 놓치는 경우가 많다. 이를 해결하기 위해 기존에는 수많은 영상을 뽑아 그중 좋은 것을 고르거나(Best-of-N), Model의 가중치를 직접 건드려야 했는데 이는 비용이 너무 크거나 상용 API Model에는 적용할 수 없다는 한계가 있었다.

VQQA는 '질문하고 답하기'라는 기초적인 인지 과정을 ML 최적화 루프에 도입한다. Agent가 생성된 영상을 보고 "사람의 손가락이 5개인가?" 같은 구체적인 질문을 던지고, VLM이 이에 답한 점수를 Loss Function처럼 활용한다. Text는 미분이 불가능하므로, VLM의 Text 비평을 마치 Gradient Descent의 Gradient처럼 사용하여 Prompt를 점진적으로 수정한다.

이 과정은 사람이 피드백을 주어 영상을 고치는 과정을 자동화한 것과 같다. 결과적으로 Model을 재학습시키지 않고도 추론 단계에서 영상의 논리적 오류나 시각적 결함을 정교하게 교정할 수 있게 된다.

방법론

VQQA는 세 가지 전문 Agent로 구성된 Multi-agent Architecture를 채택한다. Question Generation(QG) Agent는 Prompt와 Video를 분석해 정렬도, 시각적 품질, 조건 충실도를 평가할 질문 세트를 만든다. Question Answering(QA) Agent는 [Video v와 Question Q를 입력으로] → [VLM 추론을 통해 각 Question에 대한 답변과 점수를 생성하는 연산을 수행해] → [0에서 100 사이의 점수 s를 얻고] → [이 값은 해당 Video가 특정 시각적 기준을 얼마나 잘 만족하는지 나타내는 지표가 됨.]

Prompt Refinement(PR) Agent는 낮은 점수를 받은 QA 쌍을 Semantic Gradient로 수용한다. [낮은 점수의 QA 쌍과 현재 Prompt를 입력으로] → [결함을 보완하는 Text 수정 연산을 수행해] → [수정된 Prompt p_{t+1}을 얻고] → [이는 다음 세대 Video 생성의 가이드가 됨.] 예를 들어 "꽃이 피는 속도가 느리다"는 피드백이 오면 Prompt에 "rapidly blooming"과 같은 표현을 추가한다.

Semantic Drift를 방지하기 위해 Global VLM Rater를 사용한다. [후보 Video 세트 V와 초기 Prompt p_0를 입력으로] → [전체적인 정렬도를 평가하는 Global Score GS를 계산해] → [가장 높은 점수의 v*를 선택하고] → [이는 국소적 수정이 전체 의도를 해치지 않도록 보장함.] 또한 성능이 포화되거나 목표 점수에 도달하면 최적화를 멈추는 Dynamic Stopping Criterion을 적용해 연산 비용을 절감한다.

주요 결과

T2V-CompBench Benchmark에서 CogVideoX-5B Model 기준, 기본 생성 대비 +11.57%의 절대적인 성능 향상을 기록했다. 특히 Consistent-attribute(+22.94%), Spatial Understanding(+14.31%), Numeracy(+13.85%) 카테고리에서 큰 개선을 보였다.

VBench2 테스트 결과, Gemini-3-Pro를 Backbone으로 사용했을 때 기본 Model 대비 +8.43% 향상된 50.41%의 총점을 기록하며 기존 최강자였던 VQAScore 기반 기법을 앞질렀다.

효율성 측면에서 VQQA는 평균 1.245회의 Optimization Round만으로 수렴하는 빠른 속도를 보였다. 이는 VLM 호출 횟수 면에서 기존의 Best-of-5 Sampling 방식과 유사한 비용으로 훨씬 높은 품질을 얻을 수 있음을 의미한다.

실무 활용

Video Generation 서비스에서 사용자의 Prompt를 자동으로 보정하여 고품질 결과물을 보장하는 후처리 도구로 활용 가능하다. Black-box 방식이므로 OpenAI Sora나 Google Veo 같은 폐쇄형 Model에도 즉시 적용할 수 있다.

Video Generation 서비스의 자동 Prompt Optimization 레이어
생성된 영상의 시각적 오류(왜곡, 물리 법칙 위반) 자동 검출 및 수정
Text-Video Alignment가 중요한 광고 및 콘텐츠 제작 워크플로우
Video Generation Model의 성능 평가 및 Benchmarking 자동화

기술 상세

VQQA는 Test-time Optimization(TTO)을 이산적인 Prompt 공간에서의 검색 문제로 정의한다. 미분 가능한 Parameter Update 대신, VLM의 추론 능력을 활용해 Text 기반의 Semantic Gradient를 계산하고 이를 통해 Prompt 변수를 업데이트한다. Architecture는 QG, QA, PR Agents와 Global Rater로 나뉜다.

QG Agent는 Video-Prompt Alignment, Visual Quality, Condition Fidelity라는 세 가지 차원에서 질문을 생성하여 평가의 포괄성을 확보한다. QA Agent는 각 질문에 대해 정규화된 점수 s ∈ [0, 100]를 부여하여 정량적 지표를 제공한다. PR Agent는 이 점수들을 바탕으로 Prompt를 수정하는 Refinement Operator 역할을 수행한다.

최적화 루프의 안정성을 위해 도입된 Global Selection 메커니즘은 v* = argmax GS(v_i, p_0, C) 수식을 따른다. 이는 국소적인 최적화가 전체적인 사용자 의도에서 벗어나는 것을 방지하는 Anchor 역할을 한다. 또한 Dynamic Stopping Criterion은 목표 만족도(S_t* ≥ γ)와 성능 포화(Δ(S_t*, S_{t-k}*) ≤ ε) 조건을 체크하여 효율성을 극대화한다.

실험에서는 CogVideoX-5B와 Veo 3.1 등 다양한 Open-weights 및 Proprietary Model을 Generator로 사용하였으며, Gemini-3-Pro와 GPT-4o를 VLM Backbone으로 활용하여 Model-agnostic한 특성을 입증하였다.

한계점

성능이 기반이 되는 VLM의 추론 능력에 종속된다. VLM이 시각적 오류를 잡아내지 못하거나 Hallucination을 일으킬 경우 잘못된 Prompt 수정이 이루어질 수 있다. 또한 Sequential Loop 구조로 인해 병렬 처리가 가능한 방식보다 Inference Latency가 길어질 수 있다.

키워드

Video Generation(비디오 생성)Test-time Optimization(테스트 타임 최적화)Multi-agent Framework(멀티 에이전트 프레임워크)VLM(시각 언어 모델)Prompt Engineering(프롬프트 엔지니어링)