핵심 요약
LiteParse는 LlamaParse의 핵심 기술을 오픈소스로 공개한 것으로, 로컬 환경에서 빠른 속도로 텍스트와 공간 정보를 추출하며 다양한 문서 형식을 지원한다. 특히 AI 에이전트가 문서를 직접 읽고 분석할 수 있도록 돕는 강력한 도구이다.
배경
RAG 시스템 구축 시 문서 파싱은 필수적이지만, 기존 도구들은 클라우드 의존도가 높거나 속도가 느린 경우가 많았다.
대상 독자
AI 에이전트 개발자, RAG 시스템 구축 엔지니어, 데이터 전처리 담당자
의미 / 영향
LiteParse의 등장은 상용 클라우드 파싱 서비스에 대한 의존도를 낮추고 로컬 인프라만으로 고성능 RAG 파이프라인을 구축할 수 있게 한다. 특히 보안이 중요한 기업 환경에서 문서 전처리 비용을 획기적으로 절감하고 데이터 주권을 확보하는 데 기여할 것이다. 또한 에이전트 중심의 설계로 인해 자율형 AI 에이전트의 문서 처리 능력이 한 단계 진화할 것으로 예상된다.
챕터별 상세
00:00
LiteParse 개요 및 주요 특징
LiteParse는 LLM이나 클라우드 서비스에 의존하지 않는 로컬 전용 PDF 파싱 도구이다. PDF.js를 활용한 빠른 텍스트 추출과 Tesseract.js 기반의 유연한 OCR 시스템을 갖췄다. 텍스트뿐만 아니라 바운딩 박스, 폰트 정보 등 공간적 텍스트 정보를 함께 제공하여 AI 에이전트가 문서 구조를 이해하도록 돕는다. Linux, macOS, Windows 환경에서 독립 실행형 바이너리로 설치가 가능하다.
- •클라우드 의존성 없는 100% 로컬 실행 환경 지원
- •텍스트 추출 시 좌표 및 폰트 정보를 포함한 구조화된 데이터 제공
- •JSON 및 텍스트 등 다양한 출력 형식 지원
01:09
설치 및 기본 설정
LiteParse는 npm을 통해 전역으로 설치할 수 있다. 설치 후 'lit --help' 명령어를 통해 사용 가능한 CLI 옵션을 확인했다. 주요 기능은 문서 파싱(parse)과 페이지 스크린샷 생성(screenshot)으로 나뉜다. 별도의 복잡한 설정 없이 즉시 실행 가능한 환경을 제공한다.
- •npm install -g @llamaindex/liteparse 명령어로 간편한 설치
- •CLI 기반의 직관적인 명령어 인터페이스 제공
- •파싱과 스크린샷이라는 두 가지 핵심 기능 중심 설계
01:53
단일 문서 파싱 및 데이터 구조
DeepSeek-OCR 논문 PDF를 대상으로 파싱을 수행했다. 22페이지 분량의 문서를 1초 이내에 텍스트로 변환했다. 추출된 텍스트는 원본 문서의 공간적 배치를 최대한 유지하는 형태로 출력됐다. JSON 형식으로 출력 시 각 페이지의 너비, 높이 정보와 함께 개별 텍스트 아이템의 좌표(x, y), 폰트 이름, 크기 정보가 포함됐다.
- •22페이지 PDF 기준 1초 미만의 빠른 처리 속도 확인
- •원본 문서의 레이아웃을 보존하는 텍스트 추출 방식 적용
- •JSON 출력을 통해 텍스트의 정밀한 위치 정보(Bounding Box) 확보
04:02
배치 파싱을 통한 대량 문서 처리
여러 개의 PDF 파일이 포함된 폴더를 한 번에 처리하는 배치 파싱 기능을 적용했다. 'lit batch-parse' 명령어를 사용하여 입력 디렉토리 내의 모든 문서를 지정된 출력 디렉토리에 텍스트 파일로 변환했다. 대량의 논문이나 문서를 RAG 파이프라인용 데이터셋으로 변환할 때 효율적이다.
- •디렉토리 단위의 일괄 문서 처리 기능 지원
- •대규모 데이터 전처리 워크플로우에 적합한 성능
- •입력과 출력 경로 지정을 통한 자동화된 파일 관리
04:48
문서 페이지 스크린샷 생성
AI 에이전트가 시각적 정보를 파악할 수 있도록 문서 페이지를 이미지로 변환했다. 'lit screenshot' 명령어를 통해 특정 페이지 범위를 지정하여 PNG 파일로 추출했다. 추출된 이미지는 고해상도로 유지되며, 텍스트만으로는 파악하기 어려운 도표나 그림 정보를 보존한다.
- •PDF 페이지를 고품질 PNG 이미지로 변환
- •특정 페이지 범위를 선택적으로 추출하는 옵션 제공
- •멀티모달 AI 에이전트의 시각적 컨텍스트 제공용으로 활용 가능
05:25
Office 문서 및 이미지 파싱
PDF 외에도 Word(DOCX), PowerPoint(PPTX), Excel(XLSX) 및 일반 이미지 파일을 지원한다. 이를 위해 LibreOffice와 ImageMagick이라는 외부 의존성 설치가 필요하다. 설치 후 DOCX 파일을 파싱한 결과, 문서 내의 헤딩, 리스트, 표 구조가 텍스트 상에서 적절히 유지됨을 확인했다. 이미지 파일 역시 OCR을 통해 텍스트로 변환되었다.
- •LibreOffice를 활용한 다양한 Office 문서 포맷 지원
- •ImageMagick 기반의 이미지 파일 OCR 처리 기능
- •표(Table) 구조의 공간적 배치를 텍스트로 재현
07:59
OCR 엔진 커스터마이징
기본 내장된 Tesseract 외에 외부 OCR 서버를 연결하여 사용할 수 있다. Python과 FastAPI를 이용해 EasyOCR 기반의 커스텀 OCR 서버를 구축하고 LiteParse와 연동했다. '--ocr-server-url' 옵션을 통해 LiteParse가 로컬 서버로 요청을 보내 텍스트를 추출하도록 설정했다. 이를 통해 사용자는 자신의 환경에 맞는 최적의 OCR 모델을 선택할 수 있다.
- •FastAPI를 이용한 커스텀 OCR 엔드포인트 구축 방법 제시
- •EasyOCR 등 다른 OCR 라이브러리로의 확장성 확보
- •HTTP 서버 연동을 통한 유연한 OCR 백엔드 교체 가능
09:50
라이브러리 및 에이전트 스킬 활용
LiteParse는 CLI뿐만 아니라 TypeScript 라이브러리로도 사용 가능하다. 또한 Claude Code와 같은 AI 에이전트의 '스킬(Skill)'로 등록하여 사용할 수 있다. 에이전트가 직접 'lit parse' 명령을 실행하여 문서를 읽고 그 내용을 바탕으로 요약 보고서를 작성하는 과정을 시연했다. 이는 에이전트가 스스로 지식 베이스를 확장하는 능력을 부여한다.
- •TypeScript 프로젝트 내 라이브러리 임포트 및 활용 지원
- •AI 에이전트(Claude Code 등)의 도구로 통합 가능한 설계
- •에이전트가 자율적으로 문서를 파싱하고 분석하는 워크플로우 구현
실무 Takeaway
- LiteParse를 사용하면 민감한 문서를 외부 클라우드에 전송하지 않고도 로컬에서 안전하게 텍스트를 추출할 수 있다.
- 단순 텍스트 추출을 넘어 바운딩 박스와 폰트 정보를 JSON으로 제공하므로 문서의 구조적 이해가 필요한 복잡한 RAG 시스템에 유리하다.
- AI 에이전트의 스킬로 통합할 경우 에이전트가 스스로 다양한 포맷의 문서를 읽고 처리하는 자율성을 확보할 수 있다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료