핵심 요약
단순한 텍스트 추출을 넘어 문서의 레이아웃과 의미를 파악하는 구조화가 LLM 성능의 핵심이다. Upstage의 제품군은 VLM과 고정밀 OCR을 결합하여 복잡한 표, 체크박스, 이미지 등을 정확하게 처리한다.
배경
기업 데이터의 70% 이상이 비정형 문서 형태로 존재하며, 이를 RAG나 에이전트 시스템에서 활용하기 위한 고도화된 문서 처리 기술이 요구되는 상황이다.
대상 독자
RAG 시스템 구축 개발자, 문서 기반 업무 자동화를 고민하는 기업 담당자, LLM 애플리케이션 설계자
의미 / 영향
Upstage의 Document Intelligence 솔루션은 기업의 비정형 데이터를 정형화하는 비용과 시간을 획기적으로 단축시킨다. 특히 VLM과 OCR의 하이브리드 접근은 기존 기술로 처리가 어려웠던 복잡한 서식의 문서 자동화를 가능하게 한다. 이는 단순한 업무 효율화를 넘어 기업이 보유한 방대한 문서를 RAG와 에이전트 시스템의 핵심 자산으로 즉시 전환할 수 있는 기술적 토대를 제공한다.
챕터별 상세
RAG 및 에이전트 시대의 문서 처리 중요성
- •기업 내부 데이터의 비정형 문서 비중이 70% 이상임
- •문서 파싱 품질이 RAG 시스템의 전체 성능과 신뢰도를 결정함
- •에이전트의 액션이 정확하려면 입력 문서의 구조화가 선행되어야 함
Document Parse (DP)의 특징과 벤치마크
- •비정형 문서를 HTML/Markdown 등 AI 리더블 포맷으로 변환함
- •표 구조와 레이아웃 정보를 보존하여 LLM의 컨텍스트 이해를 도움
- •타사 대비 높은 정확도와 빠른 레이턴시를 벤치마크로 증명함
VLM의 한계와 하이브리드 접근 방식
- •VLM 단독 사용 시 무작위 문자열이나 숫자 인식 오류 가능성이 있음
- •대량 문서 처리 시 VLM의 느린 속도와 높은 비용이 걸림돌이 됨
- •OCR의 정확도와 VLM의 이해력을 결합한 하이브리드 모델이 대안임
Document Parse Enhanced 모드 소개
- •복잡한 표 구조와 체크박스 인식 기능을 대폭 강화함
- •차트 및 이미지에 대한 텍스트 묘사(Description) 생성 기능을 포함함
- •Auto 모드를 통해 성능과 비용 사이의 최적 균형을 제공함
from openai import OpenAI
client = OpenAI(
api_key="YOUR_UPSTAGE_API_KEY",
base_url="https://api.upstage.ai/v1/document-intelligence"
)
# Document Parse Enhanced Mode
response = client.chat.completions.create(
model="document-parse",
messages=[{"role": "user", "content": "..."}],
extra_body={"mode": "enhanced"}
)Upstage Document Parse의 Enhanced 모드를 호출하여 복잡한 문서를 파싱하는 예시 코드이다.
Information Extract (IE)와 스키마 활용
- •사용자 정의 스키마를 기반으로 비정형 데이터를 정형 데이터로 변환함
- •재학습 없는 Zero-shot 정보 추출로 다양한 도메인에 즉시 적용 가능함
- •자동 스키마 생성 기능을 통해 개발 편의성을 극대화함
response = client.chat.completions.create(
model="information-extraction",
response_format={
"type": "json_schema",
"json_schema": {
"name": "invoice_schema",
"schema": {
"type": "object",
"properties": {
"invoice_number": {"type": "string"},
"total_amount": {"type": "number"}
}
}
}
}
)사용자 정의 스키마를 활용하여 문서에서 특정 정보를 추출하는 Information Extract 호출 예시이다.
Document Classify (DC)를 통한 워크플로 자동화
- •입력 문서를 지정된 카테고리로 자동 분류함
- •자연어 설명 기반의 분류로 유연한 카테고리 확장이 가능함
- •분류와 정보 추출을 연계하여 엔드투엔드 자동화 구현이 가능함
산업별 실전 유즈케이스
- •보험금 지급 심사 자동화로 처리 속도 및 정확도 향상
- •방대한 의료 기록 요약 및 검색으로 진료 효율성 증대
- •상품 정보 자동 추출 및 검증으로 품질 관리 비용 절감
실무 Takeaway
- RAG 시스템 구축 시 단순 텍스트 추출보다 HTML/Markdown 형태의 구조화된 파싱이 LLM의 컨텍스트 이해도를 높이는 데 유리하다.
- 복잡한 표나 체크박스가 포함된 문서는 일반 OCR보다 VLM 기술이 결합된 Enhanced 모드를 사용하여 데이터 손실을 최소화해야 한다.
- Information Extract의 스키마 정의 시 구체적인 키 이름과 설명을 부여하면 LLM이 정보의 위치와 의미를 더 정확하게 파악하여 추출 성공률이 올라간다.
- Document Classify를 파이프라인 앞단에 배치하여 문서 종을 먼저 분류하면 각 문서에 최적화된 추출 로직을 적용할 수 있어 전체 시스템의 효율성이 극대화된다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.