PresentAgent-2: 일반 목적 멀티모달 프레젠테이션 비디오 생성을 위한 에이전트 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

질의 기반 프레젠테이션 생성은 기존 문서-주도 슬라이드 생성의 한계를 넘어선다. PresentAgent-2는 open-ended한 사용자 질의에서 주제를 요약하고, 신뢰 가능한 자료를 깊이 탐색해 텍스트·이미지·GIF·비디오를 수집한 뒤, 슬라이드, 대본, 오디오, 동적 미디어를 하나의 발표 영상으로 결합한다. 세 가지 모드(Single/Discussion/Interaction)로 다양한 발표 형식을 지원하고, 연구 기반의 멀티모달 리소스 활용과 대화형 발표를 함께 제공한다.

왜 중요한가

질의 기반 프레젠테이션 생성은 기존 문서-주도 슬라이드 생성의 한계를 넘어선다. PresentAgent-2는 open-ended한 사용자 질의에서 주제를 요약하고, 신뢰 가능한 자료를 깊이 탐색해 텍스트·이미지·GIF·비디오를 수집한 뒤, 슬라이드, 대본, 오디오, 동적 미디어를 하나의 발표 영상으로 결합한다. 세 가지 모드(Single/Discussion/Interaction)로 다양한 발표 형식을 지원하고, 연구 기반의 멀티모달 리소스 활용과 대화형 발표를 함께 제공한다.

핵심 기여

쿼리-주도 프레젠테이션 비디오 생성 프레임워크

오픈-엔드 질의에서 주제 이해, 심층 연구, 멀티모달 리소스 검색, 슬라이드와 대본 생성, 오디오-비디오 합성을 통합하는 엔드-투-엔드 시스템을 제안한다.

세 가지 독립 프레젠테이션 모드 지원

Single Presentation(단일 화자 내러레이션), Discussion(다자 간 대화), Interaction(관객 질문에 대한 Grounded Q&A)로 동일한 백본에서 모드별 전달 양식을 제공한다.

딥 리서치 기반 멀티모달 리소스 수집

질의에 맞는 후보 URL을 탐색·필터링하고 텍스트, 이미지, GIF, 비디오를 수집해 프레젠테이션에 사용할 리소스 세트를 구성한다.

동적 미디어의 프레젠테이션-수준 통합

GIF/비디오를 정적 스크린샷으로 전환하지 않고, 슬라이드 영역에 겹쳐 재생되도록 구현해 다이나믹한 예시를 유지한다.

PresentEval 벤치마크와 평가 프로토콜

오브젝트퀴즈(지식 전달)와 모드별 주관식 평가를 결합한 큐레이션된 벤치마크로, 질의-프레젠테이션 비디오의 품질을 다면적으로 측정한다.

핵심 아이디어 이해하기

출발점: 입력이 길지 않은 오픈 질의는 전체 콘텐츠를 포함하지 않는다. 기존 시스템은 주로 문서-기반 슬라이드로 한정되며, 질의로부터 필요한 자료를 찾고 시각 자료를 결합하는 능력이 부족하다. 이 논문은 기초적 아이디어를 연결해, 질의에서 주제를 요약하고, 후보 소스-리소스를 탐색한 뒤, 콘텐츠를 구성하는 파이프라인으로 해결한다. 시스템은 텍스트-이미지-동적 미디어를 슬라이드에 매핑하고, 세 가지 모드에 맞춘 스크립트-오디오-비디오를 생성한다. 이는 열려 있는 질의에서도 사실에 기반한 프레젠테이션 비디오를 생산하는 것을 가능하게 한다.

방법론

문제 정의: 자연어 질의 q와 프레젠테이션 모드 m을 받아 프레젠테이션 비디오 Vm을 생성한다. 모드 m은 Single Presentation, Discussion, Interaction 중 하나이다. q에서 t(주제)와 R(멀티모달 리소스)로 구성된( t, R )를 얻고, (q, t, R, m) → Vm의 최종 비디오를 생성한다. 딥 리서치: 질의에 맞춘 후보 URLs를 탐색하고, 텍스트·이미지·GIF·비디오를 포함하는 멀티모달 리소스 세트를 구성한다. 페이지의 불필요한 보일러플레이트를 제거하고 핵심 텍스트/미디어를 보존한다. 프레젠테이션 생성: 슬라이드 구조를 계획하고, 텍스트 자원을 슬라이드 제목/불릿으로 변환하며, 이미지/동적 미디어를 슬라이드에 배치하고, 각 슬라이드에 대응하는 스크립트를 작성한 뒤 오디오를 합성하고 비주얼-오디오를 합성해 비디오를 완성한다. 모드별 차이: Single Presentation은 단일 화자 내러레이션, Discussion은 대화형 다자대화, Interaction은 청중 질문에 기반한 Grounded Q&A를 제공한다.

주요 결과

벤치마크는 60개의 질의-참조 비디오 쌍으로 구성되며, Single Presentation, Discussion, Interaction의 세 가지 모드 세트로 평가한다. Objective Quiz Evaluation과 주관적 모드-특정 평가로 나뉘며, 각 질문은 4지선다형으로 구성된다. PresentAgent-2(Qwen3.5-VL-Plus 백본)은 세 모드에서 각각의 Quiz 점수 평균이 대략 4.8대(0~~5)에 근접하고, 주관 점수는 대략 4.4~~4.5 수준으로 보고된다. 구체적으로 모드별 평균 점수는 단일 프레젠테이션/토론 프레젠테이션/인터랙션 프레젠테이션에서 각각 약 4.4–4.5 수준으로 제시되며, VLM 주관 점수도 모드별로 4.3–4.5 사이를 보인다. qualitatively, Single Presentation은 슬라이드-내러레이션-비주얼이 일관되게 구성되며, Discussion은 다자 대화형 구성을 통해 개념 비교/정리가 더 원활하고, Interaction은 전체 프레젠테이션 맥락에 근거한 질문 응답이 가능함. ablation 연구는 텍스트-이미지-비디오의 다중 모달 리소스 활용과 다이나믹 미디어 보존의 기여를 확인하며, 모드별 역할 배정과 맥락 기반 응답의 필요성을 뒷받침한다.

기술 상세

전체 아키텍처는 Deep Research for Multimodal Media와 Presentation Generation, 그리고 Three Presentation Modes로 구성된다. Deep Research 단계는 질의에서 도출된 토픽 t를 바탕으로 후보 URLs를 수집하고, 텍스트/이미지/GIF/비디오를 추출·정제한다. Presentation Generation 단계에서 슬라이드 구조를 계획하고, 슬라이드 제목/불릿 포인트를 텍스트로 생성하며, 이미지 등을 직접 삽입하고 GIF/비디오를 동적으로 재생되도록 배치한다. 각 슬라이드에 대응하는 스크립트를 작성하고 오디오를 합성한다. 마지막으로 슬라이드-오디오-동적 미디어를 하나의 비디오로 합성한다. Three Presentation Modes는 같은 프레임워크를 공유하되, Single Presentation은 단일 화자 내러레이션, Discussion은 다Speaker 역할 배정된 대화, Interaction은 관객 질문에 대한 Grounded 응답으로 구분된다. ablation 실험은 공유 리소스(텍스트-미디어-다이나믹 미디어)와 모드별 기능(역할 배정, 맥락 기반 응답) 효과를 분석한다.

한계점

데이터 소스의 품질과 가용성에 의존하며, 벤치마크의 60개 예시로는 도메인 다양성이 한정된다. 업스트림 리트리벌/슬라이드 생성/스크립트 생성 과정의 오류가 인터랙션 단계에 전이될 수 있다. 또한 현재 벤치마크는 한정된 도메인에서 평가되므로 확장성이 제한될 수 있다.

실무 활용

오픈형 질의에서 멀티모달 프레젠테이션 비디오를 자동으로 생성하는 실용적 프레임워크이며, 교육·연구 커뮤니케이션·기술 설명 등 다양한 분야에 적용 가능하다.

학술 발표 영상 자동 생성(질의 기반 설명)으로 발표 준비 시간 단축
온라인 강의에서 주제별 다중 모달 자료를 혼합한 인터랙티브 강의 영상 생성
산업 트레이닝에서 특정 업무 흐름의 비디오 설명 제공
연구 논문 설명 비디오를 위한 자동 Ppt+해설 영상 생성

코드 공개 여부: 공개

코드 저장소 보기

키워드

PresentAgent-2query-to-presentationmultimodal mediapresentation benchmarkthree modesinteractive presentationdynamic media