테디노트 TeddyNoteAI/ML

업스테이지 Document Intelligence: 문서 파싱, 정보 추출 및 실전 활용 사례

Upstage의 Document Parse, Information Extract, Document Classify 제품을 통해 RAG 및 에이전트 환경에서 복잡한 문서를 효율적으로 구조화하고 실무에 적용하는 방법론을 다룬다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

단순한 텍스트 추출을 넘어 문서의 레이아웃과 의미를 파악하는 구조화가 LLM 성능의 핵심이다. Upstage의 제품군은 VLM과 고정밀 OCR을 결합하여 복잡한 표, 체크박스, 이미지 등을 정확하게 처리한다.

배경

기업 데이터의 70% 이상이 비정형 문서 형태로 존재하며, 이를 RAG나 에이전트 시스템에서 활용하기 위한 고도화된 문서 처리 기술이 요구되는 상황이다.

대상 독자

RAG 시스템 구축 개발자, 문서 기반 업무 자동화를 고민하는 기업 담당자, LLM 애플리케이션 설계자

의미 / 영향

Upstage의 Document Intelligence 솔루션은 기업의 비정형 데이터를 정형화하는 비용과 시간을 획기적으로 단축시킨다. 특히 VLM과 OCR의 하이브리드 접근은 기존 기술로 처리가 어려웠던 복잡한 서식의 문서 자동화를 가능하게 한다. 이는 단순한 업무 효율화를 넘어 기업이 보유한 방대한 문서를 RAG와 에이전트 시스템의 핵심 자산으로 즉시 전환할 수 있는 기술적 토대를 제공한다.

챕터별 상세

10:00

RAG 및 에이전트 시대의 문서 처리 중요성

기업 지식의 70% 이상이 문서 형태로 존재하며, RAG 시스템에서 LLM이 정확한 답변을 생성하기 위해서는 문서의 정교한 정제가 필수적이다. 문서 파싱이 잘못되면 아무리 뛰어난 LLM을 사용하더라도 할루시네이션이 발생할 수밖에 없다. 에이전트 시스템으로 확장될수록 문서 이해의 오류가 실행 단계의 심각한 문제로 직결되므로 문서 지능의 중요성은 더욱 커진다.

25:00

Document Parse (DP)의 특징과 벤치마크

Document Parse는 PDF, 이미지, MS Office 등 다양한 포맷의 문서를 LLM이 읽기 좋은 HTML이나 Markdown 형태로 변환한다. 단순히 텍스트만 읽는 것이 아니라 표의 구조, 폰트 스타일, 단 구조 등 레이아웃 정보를 보존한다. 벤치마크 결과 타사 솔루션 대비 표 인식(TEDS) 및 문서 이해(NID) 지표에서 압도적인 성능과 빠른 처리 속도를 기록했다.

43:00

VLM의 한계와 하이브리드 접근 방식

최신 VLM이 문서 이해에 강점이 있으나, 시리얼 번호나 작은 글자 인식에서 여전히 할루시네이션 문제가 발생한다. 또한 대량의 문서를 처리할 때 속도가 느리고 안정성이 떨어지는 단점이 있다. Upstage는 고정밀 OCR로 텍스트 정확도를 확보하고 VLM으로 복잡한 시각적 요소를 이해하는 하이브리드 방식인 Enhanced 모드를 개발했다.

58:00

Document Parse Enhanced 모드 소개

Enhanced 모드는 여러 페이지에 걸친 표, 셀 내 멀티라인 텍스트, 선 없는 표 등 까다로운 구조를 정확하게 파싱한다. 체크박스의 선택 여부를 디지털 값으로 변환하고, 차트와 그림에 대한 자연어 설명을 생성하여 LLM이 시각 정보를 이해하게 한다. 비용 효율성을 위해 간단한 페이지는 일반 모드로, 복잡한 페이지는 Enhanced 모드로 자동 할당하는 Auto 모드도 제공한다.

python

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_UPSTAGE_API_KEY",
    base_url="https://api.upstage.ai/v1/document-intelligence"
)

# Document Parse Enhanced Mode
response = client.chat.completions.create(
    model="document-parse",
    messages=[{"role": "user", "content": "..."}],
    extra_body={"mode": "enhanced"}
)

Upstage Document Parse의 Enhanced 모드를 호출하여 복잡한 문서를 파싱하는 예시 코드이다.

75:00

Information Extract (IE)와 스키마 활용

Information Extract는 사용자가 정의한 스키마에 따라 문서에서 필요한 정보만 JSON 형태로 추출하는 제품이다. 모델 재학습 없이 스키마 정의만으로 다양한 문서 종을 처리할 수 있는 범용성을 갖췄다. 스키마 생성 시 'Auto-generate' 기능을 활용하면 LLM이 문서 내용을 분석하여 적절한 키 이름과 설명을 자동으로 제안한다.

python

response = client.chat.completions.create(
    model="information-extraction",
    response_format={
        "type": "json_schema",
        "json_schema": {
            "name": "invoice_schema",
            "schema": {
                "type": "object",
                "properties": {
                    "invoice_number": {"type": "string"},
                    "total_amount": {"type": "number"}
                }
            }
        }
    }
)

사용자 정의 스키마를 활용하여 문서에서 특정 정보를 추출하는 Information Extract 호출 예시이다.

124:00

Document Classify (DC)를 통한 워크플로 자동화

Document Classify는 입력된 문서가 어떤 종류인지 자동으로 분류하여 후속 처리 파이프라인으로 연결한다. 영수증, 계약서, 이력서 등 다양한 카테고리를 별도의 학습 없이 자연어 설명만으로 분류할 수 있다. 분류된 결과에 따라 서로 다른 추출 스키마를 적용함으로써 전체 문서 처리 워크플로를 완전 자동화할 수 있는 기반을 마련했다.

132:00

산업별 실전 유즈케이스

보험 분야에서는 진료비 영수증과 세부 내역서를 자동 파싱하여 심사 업무를 자동화하고 휴먼 에러를 줄였다. 의료 분야에서는 전원 환자의 방대한 의무 기록을 요약 및 검색 가능하게 하여 의료진의 판단을 돕는 시스템을 구축했다. 유통 분야에서는 상품 패키지의 성분표 정보를 추출하여 데이터베이스와 대조하는 검증 프로세스를 자동화했다.

용어 해설

RAG: — 외부 지식 베이스에서 관련 정보를 검색하여 LLM의 답변 생성에 활용하는 기법이다. 모델의 할루시네이션을 줄이고 최신 정보나 기업 내부 데이터를 기반으로 정확한 답변을 생성하는 데 필수적이다. 문서 파싱의 정확도가 RAG 시스템 전체의 성능을 결정짓는 핵심 요소가 된다.
OCR: — 이미지나 스캔 문서 내의 텍스트를 디지털 데이터로 변환하는 기술이다. 단순히 글자를 읽는 것을 넘어 문서의 구조와 레이아웃을 파악하는 방향으로 발전하고 있다. Upstage의 제품군은 고정밀 OCR 기술을 기반으로 복잡한 서식의 문서를 구조화한다.
VLM: — 이미지와 텍스트를 동시에 이해하고 처리할 수 있는 멀티모달 AI 모델이다. 문서의 시각적 요소를 파악하는 데 강점이 있으나, 시리얼 번호나 작은 글자 인식에서 할루시네이션이 발생할 수 있다. Upstage는 기존 OCR의 정확도와 VLM의 이해력을 결합한 하이브리드 방식을 채택했다.
Schema: — 데이터의 구조와 형식을 정의하는 틀이다. Information Extract 제품에서 사용자가 추출하고자 하는 정보의 항목과 타입을 정의하는 데 사용된다. 명확한 스키마 정의는 LLM이 문서에서 필요한 정보를 정확하게 찾아내도록 가이드하는 역할을 한다.

언급된 리소스

API DocsUpstage Console

DemoDocument Parse Enhanced 사전 알림 신청

문서Upstage Document Intelligence 블로그

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2025. 12. 12.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.