핵심 요약
자율적인 AI 과학자 시스템이 텍스트와 코드는 잘 작성하지만, 논문의 핵심인 '티저 다이어그램' 생성에는 여전히 어려움을 겪고 있다. 이 논문은 고품질 다이어그램 예시와 풍부한 텍스트 문맥을 결합한 데이터셋을 제공하여, AI가 전문가 수준의 학술 도식을 생성할 수 있는 기반을 마련했다.
왜 중요한가
자율적인 AI 과학자 시스템이 텍스트와 코드는 잘 작성하지만, 논문의 핵심인 '티저 다이어그램' 생성에는 여전히 어려움을 겪고 있다. 이 논문은 고품질 다이어그램 예시와 풍부한 텍스트 문맥을 결합한 데이터셋을 제공하여, AI가 전문가 수준의 학술 도식을 생성할 수 있는 기반을 마련했다.
핵심 기여
DiagramBank 데이터셋 구축
최고 수준의 AI/ML 학술지에서 추출한 89,422개의 고품질 도식 다이어그램과 이에 대응하는 논문 제목, 초록, 캡션, 본문 인용 문맥을 결합한 대규모 데이터셋을 구축했다.
CLIP 기반 자동 필터링 파이프라인
수십만 개의 이미지 중 단순 데이터 그래프(Plot)나 일반 사진을 제외하고, 논리 구조를 담은 다이어그램만을 정교하게 분류하기 위해 CLIP 기반의 2단계 필터링 시스템을 설계했다.
계층적 3단계 RAG 프레임워크
논문 제목(도메인), 초록(방법론), 캡션(세부 요소) 순으로 검색 범위를 좁혀가는 계층적 인덱싱 전략을 통해 사용자 의도에 가장 부합하는 디자인 예시를 찾아내는 시스템을 제안했다.
핵심 아이디어 이해하기
기존의 텍스트-이미지 생성 모델은 복잡한 논리 흐름과 텍스트가 결합된 학술 다이어그램을 생성할 때 화살표 연결이 어색하거나 텍스트가 깨지는 등 구조적 일관성이 부족한 한계가 있다. 이는 모델이 학술적 도식의 시각적 관습(Visual Convention)을 충분히 학습하지 못했기 때문이다.
이 문제를 해결하기 위해 연구진은 '검색 증강 생성(RAG)' 개념을 이미지 생성에 도입했다. 모델이 무에서 유를 창조하는 대신, DiagramBank에서 검색된 고품질의 실제 논문 도식을 '시각적 가이드(Visual Prior)'로 참고하게 함으로써 레이아웃, 색상 조합, 아이콘 스타일을 모방하도록 유도한다.
결과적으로 모델은 검색된 예시의 구조적 특징을 유지하면서도 사용자가 입력한 새로운 논문 내용에 맞춰 세부 요소를 변경할 수 있게 된다. 이는 마치 숙련된 디자이너가 기존의 잘 만들어진 템플릿을 참고하여 새로운 도식을 그리는 과정과 유사하게 동작하여 생성물의 전문성을 크게 높인다.
방법론
전체 시스템은 데이터 수집, 추출, 분류, RAG 파이프라인의 4단계로 구성된다. OpenReview에서 수집된 PDF를 PDFFigures 2.0으로 파싱하여 이미지와 캡션을 추출하고, PyMuPDF를 통해 해당 이미지가 언급된 본문 문맥을 확보한다.
핵심 분류 메커니즘은 CLIP(ViT-B-32)을 활용한다. [이미지 임베딩 → 텍스트 임베딩(diagram, plot, photo, other)과의 코사인 유사도 계산 → Softmax 적용] 과정을 거쳐 0.85 이상의 신뢰도를 가진 다이어그램만 선별한다. 이 과정에서 단순 차트와 복잡한 도식을 효과적으로 분리한다.
RAG 파이프라인은 계층적 검색을 수행한다. 먼저 논문 제목 인덱스에서 후보군 S1을 추출하고, S1 내에서 초록 인덱스를 통해 방법론이 유사한 S2를 재정렬(Rerank)한다. 마지막으로 캡션 인덱스를 통해 세부 구성 요소가 일치하는 최종 예시를 선택하여 생성 모델의 프롬프트에 주입한다.
관련 Figure

논문 수집부터 추출, 인덱싱, RAG 기반 검색 및 최종 생성까지의 전 과정을 보여준다. 이 다이어그램 자체가 본 논문의 시스템으로 생성된 예시로서 실무 적용 가능성을 증명한다.
DiagramBank-RAG 프레임워크의 전체 워크플로우 다이어그램
주요 결과
DiagramBank는 2017년부터 2025년까지 ICLR, ICML, NeurIPS, TMLR에서 발표된 논문들을 포함하며, 최종적으로 89,422개의 다이어그램을 확보했다. 분석 결과, 최근 AI 연구의 폭발적 증가와 함께 다이어그램의 양도 기하급수적으로 증가하고 있으며, 캡션의 길이는 점차 짧아지는 추세를 보였다.
사례 연구(Case Study)에서 RAG를 적용하지 않은 기본 모델은 원색 위주의 단순한 레이아웃을 생성한 반면, DiagramBank-RAG를 적용한 모델은 검색된 예시의 파스텔톤 색상, 둥근 모서리 상자, 순환형 워크플로우 구조를 성공적으로 전이(Transfer)하여 실제 논문에 바로 사용할 수 있는 수준의 품질을 보여주었다.
관련 Figure

검색된 참조 이미지의 색상 팔레트와 레이아웃 스타일이 생성된 결과물에 어떻게 반영되었는지 보여준다. 단순 텍스트 프롬프트만 사용했을 때보다 훨씬 전문적인 디자인이 도출됨을 알 수 있다.
RAG를 적용하여 생성된 고품질 다이어그램 예시
기술 상세
데이터셋은 DuckDB를 사용하여 관계형으로 관리되며, 각 레코드는 논문 수준의 메타데이터와 피규어 수준의 문맥이 비정규화(Denormalized)된 형태로 저장되어 검색 효율을 극대화했다. 임베딩 모델로는 OpenAI의 text-embedding-3-large를 사용하며, FAISS 라이브러리를 통해 고속 근사 최근접 이웃(ANN) 검색을 지원한다.
특히 'Deep Fetch' 메커니즘을 도입하여, 상위 단계 필터링에서 발생할 수 있는 재현율(Recall) 손실을 방지하기 위해 필터링된 범위보다 더 넓은 범위의 후보를 하위 단계로 전달한 후 정교하게 정렬하는 방식을 채택했다. 이는 단순한 키워드 매칭을 넘어선 심층적인 문맥 일치를 가능하게 한다.
관련 Figure

제목, 초록, 캡션 순으로 검색 범위를 좁혀가며 도메인 적합성과 세부 내용 일치성을 동시에 확보하는 과정을 상세히 설명한다. FAISS DB 캐시를 활용한 효율적인 검색 구조를 확인할 수 있다.
계층적 3단계 검색 파이프라인 구조도
한계점
자동화된 휴리스틱에 의존하므로 캡션이 불완전하거나 본문 인용 문맥이 정확하지 않은 노이즈가 포함될 수 있다. 또한 현재 이미지 생성 모델의 한계로 인해 아주 복잡한 화살표 위상이나 미세한 텍스트 렌더링은 여전히 추가적인 편집이 필요할 수 있다.
실무 활용
AI 연구자나 개발자가 자신의 연구 내용을 입력하면 전문가 수준의 논문 도식을 자동으로 생성하거나 디자인 영감을 얻는 데 활용할 수 있다.
- 자율 AI 과학자 시스템의 엔드투엔드 논문 작성 모듈
- 연구자를 위한 논문 티저 피규어 초안 생성 도구
- 학술 다이어그램의 시각적 스타일 및 트렌드 분석 연구
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.