핵심 요약
기존의 AI 슬라이드 생성 도구들은 텍스트를 단순히 요약하거나 섹션별로 분절하여 생성하기 때문에 전체적인 발표의 흐름이 끊기는 문제가 있었다. ArcDeck은 논문의 논리적 구조를 담은 담화 트리를 먼저 구축하여 사람이 직접 만든 것처럼 자연스러운 서사 흐름을 가진 고품질 발표 자료를 자동으로 생성한다.
왜 중요한가
기존의 AI 슬라이드 생성 도구들은 텍스트를 단순히 요약하거나 섹션별로 분절하여 생성하기 때문에 전체적인 발표의 흐름이 끊기는 문제가 있었다. ArcDeck은 논문의 논리적 구조를 담은 담화 트리를 먼저 구축하여 사람이 직접 만든 것처럼 자연스러운 서사 흐름을 가진 고품질 발표 자료를 자동으로 생성한다.
핵심 기여
서사 중심의 다중 에이전트 프레임워크 ArcDeck
논문에서 슬라이드로의 변환을 단순 요약이 아닌 구조화된 서사 재구성 작업으로 정의하고, 담화 분석과 글로벌 커밋먼트를 활용해 논리적 일관성을 유지하는 시스템을 구축했다.
RST 기반의 계층적 담화 파싱 도입
Rhetorical Structure Theory(RST)를 활용하여 텍스트 간의 수사적 관계(핵심-부연 등)를 모델링함으로써 슬라이드 구성 시 정보의 우선순위와 연결성을 보존했다.
글로벌 커밋먼트 및 반복적 정제 루프
발표 시간과 대상에 맞춘 전체 계획(Global Commitment)을 수립하고, 비평-판단-수정으로 이어지는 다중 에이전트 루프를 통해 슬라이드 개요의 완성도를 높였다.
학술용 논문-슬라이드 벤치마크 ArcBench 공개
최상위 AI/CV 컨퍼런스에서 저자가 직접 제작한 구두 발표 자료 100쌍을 포함한 고품질 데이터셋을 구축하여 슬라이드 생성 모델의 성능을 객관적으로 평가할 수 있는 기준을 마련했다.
핵심 아이디어 이해하기
기존의 Transformer 기반 LLM은 긴 문맥을 처리할 때 전체적인 서사 구조를 놓치고 표면적인 요약에 그치는 경향이 있다. 이는 문장 간의 논리적 연결 고리인 담화 구조를 명시적으로 고려하지 않기 때문이다. ArcDeck은 이를 해결하기 위해 텍스트를 단순한 토큰의 나열이 아닌, 의미적 위계가 있는 트리 구조로 파악하는 것에서 출발한다.
해결의 핵심은 Rhetorical Structure Theory(RST)를 활용해 논문의 각 단락이 서로 어떤 수사적 관계를 맺고 있는지 분석하는 것이다. 예를 들어, 특정 단락이 앞 단락의 '근거(Evidence)'인지 '부연(Elaboration)'인지를 파악하여 슬라이드에 포함할 핵심 내용과 보조 내용을 구분한다. 이는 Embedding 공간에서의 단순 유사도 검색보다 훨씬 정교한 정보 선택을 가능하게 한다.
최종적으로 생성된 슬라이드는 단순한 정보의 나열이 아니라, '문제 제기 → 기존 한계 → 제안 방법 → 실험 결과'로 이어지는 연구자의 의도를 그대로 반영한다. 이는 다중 에이전트가 서로의 결과물을 비판하고 수정하는 과정을 거치며, 사용자가 설정한 발표 시간과 대상이라는 제약 조건 내에서 최적의 서사 밀도를 찾아내기 때문에 가능하다.
관련 Figure

단락(EDU)들이 '목적(purpose)', '평가(evaluation)', '부연(elaboration)' 등의 수사적 관계로 어떻게 연결되는지 보여준다. 이 구조가 슬라이드의 논리적 순서를 결정하는 기초가 된다.
논문 섹션 1과 3에서 추출된 실제 담화 트리(Discourse Tree) 예시이다.
방법론
ArcDeck의 파이프라인은 전처리, 서사 중심 개요 생성, 슬라이드 생성의 3단계로 구성된다. 전처리 단계에서는 PDF를 Markdown으로 변환하고 도표와 이미지를 추출하여 자산 사전(Asset Dictionary)을 구축한다.
서사 중심 개요 생성 단계는 세 가지 핵심 모듈이 작동한다. 첫째, Discourse Parser가 RST를 기반으로 단락 간의 계층적 관계를 정의하는 이진 트리를 생성한다. 둘째, Commitment Builder가 발표 대상과 시간을 입력받아 전체적인 발표 전략인 Global Commitment를 수립한다. 셋째, Narrative Refinement Loop에서 Slide Planner, Critic, Judge 에이전트가 협력하여 개요를 반복적으로 정제한다.
슬라이드 생성 단계에서는 Slide Deck Constructor가 정제된 개요와 시각 자산을 결합한다. 14개의 레이아웃 템플릿 중 텍스트 양과 이미지 개수에 최적화된 것을 선택하여 배치한다. 마지막으로 Aesthetics Refiner가 텍스트 강조, 색상 테마 적용, 시각적 정렬을 수행하여 최종적인 .pptx 파일을 완성한다.
관련 Figure

전처리, 서사 중심 개요 생성, 슬라이드 생성의 3단계 과정을 시각화한다. 특히 5명의 에이전트가 협력하는 Narrative Refinement Loop가 시스템의 핵심임을 보여준다.
ArcDeck의 전체 프레임워크 구조를 보여주는 다이어그램이다.
주요 결과
ArcBench 벤치마크를 통한 실험 결과, ArcDeck은 GPT-4o, GPT-5 등 다양한 백본 모델에서 기존 SOTA 모델인 SlideGen, PPTAgent 등을 일관되게 상회하는 성능을 보였다. 특히 VLM 기반의 Q/A 테스트에서 '서사(Story)'와 '심층 기술 내용(Depth)' 부문 점수가 크게 향상되어, 생성된 슬라이드가 논문의 핵심 정보를 누락 없이 전달함을 입증했다.
인간 평가(Human Evaluation)에서도 ArcDeck은 서사적 흐름과 내용의 질 측면에서 가장 높은 순위를 기록했다. Ablation Study 결과, 담화 파서(Discourse Parser)를 제거했을 때 서사 점수가 가장 크게 하락하여, 명시적인 담화 모델링이 논리적 슬라이드 생성에 필수적임을 확인했다. 또한 5분 발표와 20분 발표 등 시간 제약에 따라 정보의 밀도를 유연하게 조절하는 능력도 검증되었다.
관련 Figure

기존 방식들은 섹션 순서를 단순히 나열하거나 내용이 겹치는 반면, ArcDeck은 '배경-도입-방법론'으로 이어지는 일관된 서사 흐름을 보여준다.
기존 방식들과 ArcDeck이 생성한 슬라이드의 질적 비교 결과이다.
기술 상세
ArcDeck은 논문-슬라이드 생성을 '구조화된 서사 재구성(Structured Narrative Reconstruction)' 문제로 정의한다. 핵심 아키텍처는 RST 기반 담화 분석을 통해 텍스트 유닛 간의 핵(Nucleus)과 위성(Satellite) 관계를 파악하며, 이를 통해 정보의 위계 구조를 보존한다. 구현 측면에서는 다중 에이전트 시스템을 채택하여, 개별 에이전트가 특정 역할(비판, 판단, 수정)에 집중하게 함으로써 단일 프롬프트 호출의 한계를 극복했다. 특히 Global Commitment라는 공유 문서를 통해 에이전트 간의 상태를 동기화하고 일관된 목표를 유지하도록 설계되었다. 시각적 측면에서는 Asset Matching 알고리즘을 통해 텍스트 문맥과 가장 관련성이 높은 도표를 자동으로 선택하고, Aesthetics Refiner가 LaTeX 스타일의 강조 구문을 해석하여 시각적 완성도를 높인다.
한계점
오픈소스 모델과 폐쇄형 모델 간의 성능 차이로 인해 백본 모델에 따라 결과물의 질이 달라질 수 있으며, 특정 모델에 최적화된 프롬프트 튜닝이 추가로 필요할 수 있다. 또한 매우 긴 불렛 포인트가 생성될 경우 슬라이드 경계를 벗어나는 레이아웃 오류가 발생할 수 있음이 명시되었다.
실무 활용
연구자들이 자신의 논문을 기반으로 학술 발표 자료를 초안을 작성할 때 매우 유용하며, 발표 대상(일반인 vs 전문가)에 맞춘 맞춤형 슬라이드 제작이 가능하다.
- 학술 컨퍼런스 구두 발표용 .pptx 슬라이드 초안 자동 생성
- 연구 논문을 일반 대중에게 홍보하기 위한 쉬운 버전의 발표 자료 제작
- 발표 제한 시간(5분, 15분 등)에 맞춘 슬라이드 분량 및 내용 최적화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.