TL;DR
AI 생성 비디오의 아티팩트는 현실성 판단의 핵심 신호다. 기존 벤치마크는 진위 판단이나 선호도 평가에 편중되어 아티팩트의 원인 해석과 세밀한 인지에 한계가 있었다. Artifact-Bench는 3단계 계층의 아티팩트 분류와 3가지 작업으로 MLLMs의 인식 및 추론 능력을 체계적으로 평가한다. 이를 통해 모델 개발 시 현실성 이해와 세밀한 추론 능력의 필요성을 입증한다.
왜 중요한가
AI 생성 비디오의 아티팩트는 현실성 판단의 핵심 신호다. 기존 벤치마크는 진위 판단이나 선호도 평가에 편중되어 아티팩트의 원인 해석과 세밀한 인지에 한계가 있었다. Artifact-Bench는 3단계 계층의 아티팩트 분류와 3가지 작업으로 MLLMs의 인식 및 추론 능력을 체계적으로 평가한다. 이를 통해 모델 개발 시 현실성 이해와 세밀한 추론 능력의 필요성을 입증한다.
핵심 기여
세밀한 현실성 아티팩트 계층 분류 체계
AI 생성 비디오에서 나타나는 30개의 세부 아티팩트 유형을 포함하는 3단계의 계층형 분류를 제시한다. 표면 아티팩트, 구조적 결함, 시간-의미적 위반으로 구성되며 각 유형은 다중 라벨 주석이 가능하다.
Artifact-Bench 벤치마크의 다단계 평가 프레임워크
RVAC, PVRC, AID의 세 가지 작업으로 구성되며, 난이도(L1-L3)와 하이브리드 데이터 구축 파이프라인을 활용해 다차원적으로 아티팩트를 평가한다.
다양한 비디오 도메인에 걸친 대규모 실험
19개 MLLMs를 평가하고, 일부 모델이 무작위 수준에 근접하거나 그 이하의 성능을 보이며 AID에서 특히 취약함을 확인했다.
인간 선호도와 모델 판단 간의 불일치 밝힘
모델의 판단이 인간의 현실성 선호도와 일관되지 않으며 데이터 편향이나 표면 신호에 의존하는 경향이 있음을 관찰했다.
실용적 시사점 및 향후 연구 방향 제시
현실성 이해와 세밀한 인지 능력을 강화한 MLLMs의 필요성을 제시하고, 인간 정렬에 기반한 안정적인 보상 신호의 중요성을 강조했다.
관련 Figure

3단계 분류 체계 및 30개 세부 유형이 한 화면에 시각화되어 Artifact-Bench의 기초 개념과 실행 계획을 직관적으로 설명한다.
Figure 1: AI-Generated Video Artifacts의 계층적 분류를 한 눈에 보여주는 다이어그램.
핵심 아이디어 이해하기
출발점: AI 생성 비디오는 시간적 일관성, 객체 구조, 의미 일관성의 결함을 드러내며 이는 인간의 현실감 판단에 중요한 신호다. 해결 원리: 3단계 아티팩트 분류 체계와 다단계 평가를 통해 모델의 표면 인식뿐 아니라 원인 진단까지 가능하도록 한다. 변화의 점: 단순한 파라미터 증가나 일반적 추론 강화만으로 세밀한 아티팩트를 반드시 개선하지 않으며, 세밀한 공간-시간 인식 및 인간 정렬성에 근거한 평가가 필요하다.
방법론
데이터 구성: 실제 비디오와 AI 생성 대조 비디오를 하이브리드로 수집·제작하여 시맨틱 일치를 보장하고, 다수의 생성 모델을 통해 다양성을 확보. 작업 설계: RVAC는 실제 여부 판단, PVRC는 두 AI 비디오 중 더 현실적인 것을 선택, AID는 6개 후보 중 세부 아티팩트를 선택하는 다지선다형 구성. 계층적 아티팩트 taxonomy: 표면 아티팩트, 구조적 결함, 시간-의미적 위반의 3대 도메인 아래 30개 세부 유형으로 구성. 다중 라벨 주석 가능. 주석 및 검증: 3인 전문가 독립 주석 및 합의 시 2인의 추가 검토. 난이도 계층: L1-L3 구분. 데이터 파이프라인: Gemini 3.1 Pro로 캡션 생성 후 semantically aligned AI 비디오 생성; Kling-2.5/2.1, Veo 3, HunyuanVideo-1.5, daVinci-MagiHuman, LTX-2.3, Wan2.2 등 모델 사용. 평가 프로토콜: 프롬프트 템플릿 제공, 프레임 샘플링 5fps, 고정 디폴트 디코딩. 재현성 확보를 위한 라벨링 기준 엄격.
관련 Figure

벤치마크의 다단계 평가 흐름과 입력/출력 포맷이 한 번에 시각화되어 methodology 이해에 도움을 준다.
Figure 2: 세 가지 작업(RVAC, PVRC, AID)의 작업 흐름 개요.

실제 비디오와 AI생성 비디오의 하이브리드 구성, 캡션-생성, 모델 다양성으로 데이터 다양성을 확보하는 원리를 보여준다.
Figure 3: Artifact-Bench 건설 파이프라인 개요.
주요 결과
주요 벤치마크 결과: 19개 모델의 전체 평균은 낮으며, Gemini 3.1 Pro의 RVAC 평균은 74.0으로 가장 높고, PVRC·AID에서도 큰 격차를 보였다. Human Baseline는 RVAC 93.6, PVRC 86.4, 전체 87.7로 모델을 크게 상회한다. AID에서 모든 모델의 평균 정확도는 10% 미만으로 큰 차이를 보인다. Proprietary 모델이 일반적으로 우수하나 인간 전문가와의 차이는 여전하고, 모델 판단은 데이터 편향이나 표면 신호에 의존하는 경향이 있다. 실패 사례(Figure 5)에서 미세한 영역의 아티팩트나 다프레임 분산 아티팩트는 더 어려운 문제로 부각된다. 모델의 판단은 시간적-공간적 통합 추론의 한계로 귀결되며, 인간과의 정렬성 차이는 향후 보상 학습에서의 안정적 신호 설계의 필요성을 시사한다.
관련 Figure

데이터 구성의 다양성 및 분포를 보여주며 벤치마크의 재현성과 일반화를 설명하는 근거를 제공한다.
Figure 4: 데이터 통계(카테고리, 소스, 지속시간, 해상도, 주체 수).

미세한 영역의 아티팩트와 프레임 간 누적 이슈를 통해 모델의 한계를 드러낸다.
Figure 5: 세밀한 공간-시간 아티팩트의 실패 사례.

RVAC/PVRC에서 인간 평가 대비 모델의 성능 차이를 직관적으로 제시한다.
Figure 6-7: RVAC 및 PVRC의 대표 예시.

Artifact Identification의 구체적 다지선다 질문 구조와 선택 예시를 시각적으로 보여준다.
Figure 8: AID의 대표 예시.
기술 상세
아키텍처 차원에서 3단계 아티팩트 계층 구조를 바탕으로 RVAC, PVRC, AID의 파이프라인을 구성하고, 하이브리드 데이터 구축 파이프라인과 L1-L3 난이도 계층화를 제시한다. 수학적 기반은 주로 프롬프트 기반 데이터 생성, 프롬프트 템플릿 설계, 영상 샘플링 및 프레임 간 정합성 분석 등으로 구성되며, 기존 벤치마크 대비 다중Paradigm의 차별성을 강조한다. 구현 및 학습 세부사항으로 Kling-2.5, Kling-2.1, Veo 3, HunyuanVideo-1.5, daVinci-MagiHuman, LTX-2.3, Wan2.2 등의 생성 모델 활용과 5fps 입력 설정을 채택했다.
한계점
리소스 제약으로 인해 주석 전문가 수 및 데이터 세트 규모 확장이 필요하며, 향후 더 큰 스케일의 다중 도메인 데이터로 확장해야 한다.
실무 활용
Artifact-Bench는 AI 생성 비디오의 아티팩트 이해를 촉진해 모델 개발과 평가를 보다 정밀하게 안내한다.
- 현실성 인식 개선 목표를 위한 모델 개발 로드맵 수립
- 보상 학습에서 인간 정렬 신호의 안정적 제공
- 다양한 도메인에서의 일반화 성능 평가
- 새로운 생성 모델의 아티팩트 분포 파악 및 디버깅
- 벤치마크 기반의 모델 간 비교 및 표준화된 평가
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.