Langflow와 Docling을 활용한 PDF의 마크다운 변환 및 RAG 파이프라인 구축

핵심 요약

PDF와 같은 비정형 문서에서 깨끗한 데이터를 추출하는 것은 RAG 기반 AI 에이전트 구축의 주요 과제이다. Langflow 1.6은 오픈소스 문서 프로세서인 Docling을 파일 컴포넌트에 통합하여 이 문제를 해결했다. 사용자는 고급 파서를 활성화하여 표준 파이프라인이나 VLM 기반 파이프라인을 선택함으로써 문서를 구조화된 마크다운으로 변환할 수 있다. 변환된 데이터는 요약, 챗봇, 또는 벡터 데이터베이스 저장을 위한 RAG 인제스션 파이프라인 구축에 활용된다.

배경

Langflow 기본 사용법, RAG(검색 증강 생성) 개념, JavaScript/TypeScript 기초 지식

대상 독자

AI 애플리케이션 개발자 및 RAG 시스템 설계자

의미 / 영향

문서 전처리 과정의 자동화와 고도화를 통해 RAG 시스템의 답변 정확도를 높일 수 있다. 특히 오픈소스 도구인 Docling을 활용함으로써 상용 OCR 서비스 의존도를 낮추고 비용 효율적인 데이터 파이프라인 구축이 가능하다.

섹션별 상세

Docling은 오픈소스 문서 프로세서로, PDF, DOCX, 이미지 등 다양한 형식을 AI가 이해하기 쉬운 깨끗한 콘텐츠로 변환한다. OCR 기술과 페이지 레이아웃 분석, 또는 Granite-Docling-258M과 같은 시각 언어 모델(VLM)을 사용하여 읽기 순서와 구조를 파악한다. Langflow 1.5부터 도입되어 1.6 버전에서는 파일 컴포넌트의 고급 파서 기능을 전담하며 강력한 문서 처리 능력을 제공한다.

Langflow 내에서 파일 컴포넌트와 채팅 출력 컴포넌트를 연결하는 것만으로 간단한 PDF 파싱 플로우를 구성할 수 있다. 기본 파서는 텍스트를 단순 스트림으로 추출하지만, 고급 파서를 활성화하면 Docling의 강력한 기능을 사용할 수 있다. 표준 파이프라인은 레이아웃 분석 모델을 적용하고, VLM 파이프라인은 시각 언어 모델을 통해 한 번에 문서를 처리하여 헤더와 단락 등 문서 구조를 보존한 마크다운을 생성한다.

추출된 마크다운 데이터는 다양한 AI 애플리케이션의 기초가 된다. 프롬프트 템플릿과 언어 모델을 연결하여 PDF 내용으로 채팅하거나 요약하는 기능을 구현할 수 있다. 또한, 타입 변환 컴포넌트와 텍스트 스플리터를 조합하여 마크다운 구조에 따라 텍스트를 청킹하고, 이를 임베딩하여 OpenSearch와 같은 벡터 저장소에 인덱싱하는 RAG 인제스션 파이프라인을 구축하는 것도 가능하다.

Langflow API와 JavaScript 클라이언트를 사용하면 외부 애플리케이션에 이 기능을 통합할 수 있다. 먼저 파일을 Langflow 서버에 업로드한 후, 반환된 파일 경로와 파이프라인 모드를 트윅 파라미터로 전달하여 플로우를 실행하는 방식이다. 이를 통해 Next.js와 같은 웹 프레임워크에서 사용자가 업로드한 PDF를 실시간으로 처리하고 결과를 화면에 표시하는 대화형 앱을 제작할 수 있다.