핵심 요약
최근 Sora, Veo와 같은 텍스트-오디오-비디오(T2AV) 생성 모델이 급격히 발전하고 있지만, 시각적 미학에 비해 오디오와의 정밀한 결합이나 세부적인 시맨틱 제어력은 여전히 부족합니다. 이 논문은 기존의 단순한 유사도 측정을 넘어 실제 사용자의 복잡한 의도를 얼마나 잘 반영하는지 11개 카테고리에서 정밀하게 진단할 수 있는 평가 체계를 제공하여 차세대 멀티모달 AI 연구의 방향성을 제시합니다.
왜 중요한가
최근 Sora, Veo와 같은 텍스트-오디오-비디오(T2AV) 생성 모델이 급격히 발전하고 있지만, 시각적 미학에 비해 오디오와의 정밀한 결합이나 세부적인 시맨틱 제어력은 여전히 부족합니다. 이 논문은 기존의 단순한 유사도 측정을 넘어 실제 사용자의 복잡한 의도를 얼마나 잘 반영하는지 11개 카테고리에서 정밀하게 진단할 수 있는 평가 체계를 제공하여 차세대 멀티모달 AI 연구의 방향성을 제시합니다.
관련 Figure

기존 방식이 개별 모달 평가와 단순 프롬프트에 의존했다면, AVGen-Bench는 통합 AV 평가, 10개 차원의 세밀한 지표, 복잡한 프롬프트를 특징으로 함을 보여준다.
AVGen-Bench와 기존 벤치마크의 차이점을 비교한 도표이다.
핵심 기여
작업 중심의 T2AV 벤치마크 AVGen-Bench 구축
전문 미디어 제작, 크리에이터 경제, 물리 세계 시뮬레이션 등 3대 도메인과 11개 하위 카테고리를 아우르는 235개의 고품질 프롬프트 세트를 구축했다. 기존 벤치마크보다 평균 토큰 수가 월등히 높은 복잡한 프롬프트를 통해 모델의 한계를 시험한다.
다중 입도 하이브리드 평가 프레임워크 제안
단일 모달 품질, 교차 모달 정렬뿐만 아니라 텍스트 렌더링, 얼굴 일관성, 음정 정확도 등 6가지 세부 차원을 평가하는 모듈을 도입했다. 전문 모델(Specialist Models)과 MLLM(Gemini 3 Flash 등)을 결합하여 신호 수준의 정밀도와 고차원적 의미 추론을 동시에 수행한다.
최신 T2AV 모델의 체계적 결함 진단
Sora-2, Veo 3.1, Kling 2.6 등 최첨단 모델들을 평가한 결과, 시각적 미학은 뛰어나지만 물리 법칙 준수, 정확한 음정 생성, 배경 텍스트 렌더링 등 세부적인 시맨틱 신뢰성에서 공통적인 실패 지점이 있음을 밝혀냈다.
관련 Figure

최신 모델들이 겪는 구체적인 결함(글자 깨짐, 잘못된 음계 생성, 물리적 인과관계 오류 등)을 실제 생성 결과물과 함께 제시하여 벤치마크의 필요성을 강조한다.
텍스트 렌더링, 음정 부정확성, 물리 법칙 위반 등 다양한 실패 사례를 시각화한 그림이다.
핵심 아이디어 이해하기
기존의 비디오 생성 평가가 주로 CLIP이나 CLAP 같은 Embedding 모델을 활용해 텍스트와 생성물 사이의 거리를 계산하는 방식에 의존했다는 점에 주목한다. 이러한 방식은 전체적인 분위기는 파악할 수 있지만, '피아노로 C Major 코드를 연주하라'거나 '화면에 특정 문구가 나타나야 한다'는 식의 세밀한 지시사항이 오디오와 비디오 양쪽에서 동시에 정확히 구현되었는지 검증하기에는 역부족이다.
이 논문은 이를 해결하기 위해 '전문가 모델의 정밀 측정'과 '대형 언어 모델의 논리적 판단'을 결합하는 방식을 취한다. 예를 들어 오디오에서 음정을 체크할 때는 Basic-Pitch라는 전용 모델로 MIDI 데이터를 추출하고, 이를 Gemini가 음악 이론에 맞춰 검증하는 식이다. 이는 마치 숙련된 검수자가 정밀 측정 장비를 들고 제품의 세부 사양을 하나하나 대조하는 것과 유사한 원리이다.
결과적으로 이 접근법은 모델이 단순히 '그럴듯한 영상'을 만드는 것을 넘어, 사용자가 프롬프트에 담은 구체적인 물리적, 논리적 제약 조건을 얼마나 충실히 이행하는지를 수치화할 수 있게 한다. 실험을 통해 현재의 모델들이 시각적 화려함 뒤에 숨겨진 심각한 논리적 오류(물리 법칙 위배, 횡설수설하는 음성 등)를 가지고 있음을 명확히 드러냈다.
방법론
AVGen-Bench의 평가 체계는 세 가지 계층으로 구성된다. 첫째, 단일 모달 품질(Mono-modal Quality) 계층에서는 Q-Align을 통해 시각적 미학을, Audiobox-Aesthetic을 통해 오디오의 선명도와 생산 품질을 측정한다. 둘째, 교차 모달 정렬(Cross-modal Alignment) 계층에서는 Syncformer와 Syncnet을 사용하여 영상 내 움직임과 소리의 시간적 일치 및 입 모양 동기화를 평가한다.
셋째, 핵심인 세부 시맨틱 제어(Fine-grained Semantic Control) 계층은 6개 모듈로 나뉜다. 텍스트 렌더링은 PaddleOCR로 텍스트를 추출한 뒤 MLLM이 프롬프트와의 일치성을 검증한다. 얼굴 일관성은 InsightFace와 DBSCAN 클러스터링을 통해 샷 전환 시 동일 인물 유지 여부를 판별한다. 음정 정확도는 오디오를 MIDI로 변환하여 음악 이론적 제약 조건을 확인하며, 물리적 타당성은 VideoPhy2-AutoEval과 MLLM의 인과 추론을 결합하여 평가한다.
모든 평가 과정에서 MLLM(Gemini 3 Flash)은 '추론 엔진' 역할을 수행한다. 전문 모델이 추출한 로우 데이터(텍스트 좌표, MIDI 이벤트, 물리적 궤적 등)를 입력으로 받아 사용자의 의도와 대조하여 최종 점수를 산출한다. [전문 모델의 특징 추출 → MLLM의 논리적 대조 → 수치화된 점수 출력] 순으로 계산이 이루어지며, 이는 단순 유사도 점수보다 인간의 판단과 높은 상관관계(Pearson 상관계수 최대 0.96)를 보인다.
관련 Figure

작업 기반 프롬프트 세트와 전문 모델 및 MLLM(Gemini)이 결합된 다중 입도 평가 스위트의 구성을 한눈에 보여준다.
AVGen-Bench의 전체 프레임워크 구조도이다.
주요 결과
평가 결과, 최신 모델들은 시각적 품질(Visual Quality)에서 0.95 이상의 높은 점수를 기록하며 '시네마틱한' 영상 생성 능력을 입증했다. 그러나 오디오 품질은 상대적으로 낮았으며, 특히 영상과 소리의 동기화(AV Sync)에서 평균 0.2s~0.44s의 오차가 발생하여 완벽한 실시간 동기화에는 도달하지 못한 것으로 나타났다.
세부 모듈 분석에서는 심각한 성능 격차가 발견되었다. 모든 모델이 음정 정확도(Pitch Accuracy)에서 100점 만점에 12점 미만의 극히 낮은 점수를 기록하며 음악 이론에 대한 이해가 전무함을 보여주었다. 또한, 프롬프트에 명시되지 않은 배경 텍스트(Incidental Text)를 생성할 때 의미 없는 기호나 깨진 글자를 렌더링하는 '글리프 붕괴(Glyph Collapse)' 현상이 공통적으로 관찰되었다.
물리 법칙 준수(Physical Plausibility) 측면에서도 대다수 모델이 VideoPhy2 기준 통과 점수인 4.0점을 넘지 못했다. 예를 들어 물에 던져진 금속이 밀도 차이에 의해 떠오르거나 가라앉는 물리적 인과 관계를 정확히 시뮬레이션하지 못하고 단순히 색상만 변하는 등의 오류가 빈번했다. 종합 점수에서는 Google의 Veo 3.1-fast가 67.87점으로 가장 높은 성능을 보였다.
기술 상세
AVGen-Bench는 기존의 블랙박스형 임베딩 평가에서 벗어나 해석 가능한(Interpretable) 평가 지표를 지향한다. 아키텍처는 크게 '작업 중심 프롬프트 큐레이션'과 '하이브리드 평가 파이프라인'으로 나뉜다. 프롬프트는 GPT-5.2를 활용해 생성한 후 인간이 검수하여 복잡도와 다양성을 확보했다.
평가 파이프라인의 핵심은 'Detect-Aggregate-Verify' 구조다. 텍스트 렌더링의 경우 프레임별 OCR 결과를 시공간 클러스터링으로 묶어 중복을 제거한 뒤 MLLM에 전달한다. 얼굴 일관성 역시 InsightFace로 추출한 임베딩을 DBSCAN으로 클러스터링하여 '주요 인물'을 식별하고, 이들의 아이덴티티가 샷 전환 시 얼마나 안정적인지(Identity Stability)와 프롬프트에 명시된 인원수와 일치하는지(Identity Count Accuracy)를 가중 평균하여 계산한다.
음정 정확도 검증을 위해 Symbolic-Neural Verification 방식을 도입했다. 오디오 파형을 Basic-Pitch로 분석해 MIDI 이벤트를 얻고, 이를 80ms 윈도우로 집계하여 코드 프레임을 생성한다. Gemini는 프롬프트에서 추출한 음악적 제약 조건(예: C Major)과 이 MIDI 데이터를 비교하여 논리적 일치성을 판별한다. 이러한 하이브리드 방식은 인간 평가와의 상관관계가 매우 높아 신뢰할 수 있는 자동 평가 도구로서의 가치를 지닌다.
관련 Figure

각 모듈이 어떤 전문 모델을 사용하고 MLLM과 어떻게 상호작용하여 최종 점수를 도출하는지 기술적 절차를 상세히 설명한다.
6가지 세부 평가 모듈(텍스트, 얼굴, 음정, 음성, 물리, 시맨틱)의 상세 워크플로우다.
한계점
현재의 음정 정확도 평가에서 인간 평가와의 상관관계가 0.5544로 다른 지표에 비해 낮은데, 이는 현재 모델들의 성능이 너무 낮아 점수가 바닥권에 몰려 있는 '바닥 효과(Floor Effect)' 때문이라고 분석했다. 또한 물리 법칙 평가 시 아직은 복잡한 동역학 전체를 완벽하게 수치화하는 데 한계가 있음을 명시했다.
실무 활용
T2AV 모델 개발자와 연구자들이 모델의 약점을 정밀하게 진단하고 개선 방향을 설정하는 데 직접적으로 활용될 수 있다.
- 생성된 광고 영상 내 브랜드 로고 및 텍스트의 가독성 및 철자 정확도 자동 검수
- 음악 교육용 콘텐츠 생성 시 연주 동작과 실제 음정의 일치 여부 평가
- 멀티샷 영화 트레일러 생성 시 캐릭터의 얼굴 일관성 유지 성능 측정
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.