LangflowAI/ML조회 2회

The Flow: AI, 에이전트, MCP 그리고 Unstructured의 데이터 혁신

Unstructured의 Chris Maddock이 출연하여 비정형 데이터를 AI 에이전트와 RAG 시스템에 최적화된 형태로 변환하고 파이프라인을 자동화하는 기술적 진화 과정을 공유합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

성공적인 AI 시스템 구축을 위해서는 비정형 데이터를 정확하게 구조화하는 것이 필수적이다. Unstructured 플랫폼은 데이터 추출부터 벡터 DB 적재까지의 전 과정을 자동화하여 개발 효율성을 극대화한다.

배경

Langflow가 주관하는 'The Flow' 팟캐스트 에피소드로, Unstructured의 Chris Maddock이 게스트로 참여했습니다.

대상 독자

LLM 애플리케이션 개발자, 데이터 엔지니어, 엔터프라이즈 AI 아키텍트

의미 / 영향

Unstructured 플랫폼의 발전으로 기업들은 방대한 비정형 데이터를 AI가 즉시 활용 가능한 지식 자산으로 신속하게 전환할 수 있게 되었다. 특히 다양한 엔터프라이즈 소스와 벡터 DB 간의 자동화된 파이프라인은 LLM 애플리케이션의 프로덕션 배포 기간을 획기적으로 단축시킨다. 이는 데이터 엔지니어링의 복잡성을 낮추고 비즈니스 로직 구현에 더 집중할 수 있는 환경을 조성할 것이다.

챕터별 상세

03:27

Unstructured의 핵심 가치와 역할

Unstructured는 SharePoint와 같은 다양한 소스에 흩어진 비정형 데이터를 LLM이 이해할 수 있는 표준 형식으로 변환한다. 데이터를 파싱하고 청킹하며 임베딩을 입혀 에이전트나 RAG 시스템에 전달하는 파이프라인을 제공한다. Chris는 이를 생성형 AI에서 가장 지루하지만 동시에 가장 중요한 부분이라고 정의했다. 데이터가 잘못되면 LLM이 할루시네이션을 일으키거나 잘못된 정보를 생성하기 때문에 정확한 데이터 변환이 필수적이다.

비정형 데이터는 PDF, 이미지, 워드 문서 등 형식이 정해지지 않은 데이터를 의미한다.

04:18

데이터 품질과 할루시네이션의 상관관계

전통적인 ETL 방식에서는 데이터 오류 시 null 값이 발생하지만, LLM 환경에서는 모델이 부족한 정보를 임의로 채워 넣어 할루시네이션을 유발한다. Unstructured는 이러한 문제를 해결하기 위해 'Score'라는 과학 논문을 발표하고 데이터 변환의 정확도를 측정하는 기준을 마련했다. 테이블 감지, 행/열 수준의 추출 정확도 등을 평가하여 모델이 원본 문서에 없는 내용을 생성하지 않도록 가드레일을 구축했다. 이를 통해 기업용 애플리케이션에서 신뢰할 수 있는 데이터 기반을 제공한다.

할루시네이션은 AI가 그럴듯해 보이지만 사실과 다른 정보를 생성하는 현상이다.

07:45

Unstructured 플랫폼의 진화: 오픈소스에서 API까지

Unstructured는 6,500만 건 이상의 다운로드를 기록한 오픈소스 라이브러리로 시작하여 현재는 확장 가능한 API 플랫폼으로 진화했다. 초기에는 단순한 데이터 변환(Transform)에 집중했으나, 고객들이 변환된 데이터를 어디로 보낼지에 대해 고민하는 것을 보고 엔드 투 엔드 파이프라인을 구축했다. 이제는 데이터 소스 연결부터 벡터 저장소 적재까지 전체 워크플로를 관리한다. 특히 IBM Watsonx.data 및 DB2 Vector Store와의 깊은 통합을 통해 엔터프라이즈 환경을 지원한다.

엔드 투 엔드(End-to-End)는 시작부터 끝까지 전 과정을 하나의 시스템에서 처리함을 의미한다.

13:10

지능형 데이터 파싱 데모: Alex Mercer 이력서 사례

Chris는 플랫폼 UI를 통해 PDF 문서를 지능적으로 파싱하는 과정을 시연했다. 시스템은 객체 탐지 모델을 실행하여 문서 내의 텍스트, 이미지, 테이블 등을 구분하고 각각에 바운딩 박스를 그린다. 추출된 데이터는 고유 ID와 메타데이터를 포함한 표준 JSON 스키마로 변환된다. 사용자는 이 과정을 통해 문서의 구조가 어떻게 해석되는지 시각적으로 확인하고 파이프라인에 적용할 수 있다. 이 방식은 개발자에게 일관된 인터페이스를 제공하여 코딩 복잡도를 낮춘다.

바운딩 박스는 이미지 내 특정 객체의 위치를 사각형으로 표시하는 기법이다.

15:30

커넥터를 활용한 엔터프라이즈 워크플로 구축

플랫폼은 SharePoint, S3, Google Drive 등 다양한 데이터 소스를 위한 커넥터를 제공한다. 사용자는 소스 커넥터와 목적지 커넥터(벡터 DB 등)를 설정하고 이를 워크플로로 묶어 자동화할 수 있다. 데모에서는 SharePoint의 PDF와 PPT 데이터를 IBM DB2 벡터 저장소로 직접 전송하는 과정을 보여주었다. 'Build it for me' 옵션을 통해 복잡한 설정 없이도 최적화된 파이프라인을 즉시 생성할 수 있다. 이는 수만 페이지의 문서를 보유한 대기업의 데이터 자산화를 가속화한다.

커넥터는 서로 다른 소프트웨어 시스템 간에 데이터를 주고받을 수 있게 연결해주는 도구이다.

19:28

효율적인 파티셔닝 전략: Fast, High-Res, VLM

데이터 변환 시 비용과 성능의 균형을 맞추기 위해 세 가지 전략을 제공한다. 'Fast'는 CPU 기반으로 텍스트 추출이 가능한 문서에 적합하며 매우 빠르다. 'High-Res'는 OCR 모델을 사용하여 복잡한 레이아웃이나 이미지를 처리한다. 'VLM' 전략은 GPT-4o나 Claude 3.5와 같은 시각 언어 모델을 직접 사용하여 고도의 이해가 필요한 문서를 처리한다. 'Auto' 모드를 선택하면 시스템이 문서의 특성을 분석하여 가장 효율적인 모델을 자동으로 할당한다.

OCR(광학 문자 인식)은 이미지 속의 텍스트를 디지털 데이터로 변환하는 기술이다.

26:45

에이전틱 검색(Agentic Retrieval)의 미래

전통적인 RAG는 코사인 유사도 검색에 의존하지만, Unstructured는 에이전트가 직접 데이터를 탐색하는 방식을 지향한다. 에이전트는 문서의 메타데이터와 구조를 이해하고, 질문에 답하기 위해 필요한 특정 문서나 페이지를 지능적으로 선택한다. 예를 들어 여러 축구 클럽의 부채를 비교하라는 질문에 대해 에이전트는 각 클럽의 재무 보고서를 병렬로 쿼리하여 종합한다. 이는 단순 검색보다 훨씬 정확하고 복잡한 추론이 필요한 질의에 효과적이다. Chris는 이를 'Concierge' 제품군으로 개발 중이라고 밝혔다.

에이전틱 검색은 AI 에이전트가 스스로 판단하여 검색 쿼리를 생성하고 결과를 조합하는 방식이다.

용어 해설

Unstructured Data: — PDF, 이미지, 이메일 등 고정된 필드나 형식이 없는 데이터이다. AI 모델이 이해할 수 있도록 텍스트 추출, 구조화, 청킹 과정을 거쳐 정형화된 포맷으로 변환하는 것이 LLM 애플리케이션 구축의 핵심 단계이다.
RAG: — 외부 지식 베이스에서 관련 정보를 검색하여 LLM의 답변 생성에 활용하는 기법이다. 모델의 할루시네이션을 줄이고 최신 정보나 기업 내부 데이터를 기반으로 정확한 답변을 생성하게 돕는다.
ETL: — 데이터 소스로부터 데이터를 추출(Extract)하고, 목적에 맞게 변환(Transform)한 뒤, 대상 시스템에 적재(Load)하는 프로세스이다. AI 파이프라인에서는 비정형 문서를 벡터 DB에 저장 가능한 형태로 가공하는 과정을 의미한다.
Chunking: — 긴 텍스트를 LLM의 컨텍스트 윈도우 크기에 맞춰 작은 단위로 나누는 작업이다. 의미적 일관성을 유지하면서 적절한 크기로 분할해야 검색 정확도와 생성 품질을 높일 수 있다.
Vector Store: — 텍스트나 이미지의 의미적 특징을 수치화한 벡터 임베딩을 저장하고 검색하는 데이터베이스이다. RAG 시스템에서 유사도 기반 검색을 통해 질문과 가장 관련성이 높은 문서 조각을 찾는 데 사용된다.

언급된 리소스

문서Unstructured.io

DemoUnstructured Platform

GitHubUnstructured GitHub

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 04. 14.수집 2026. 04. 14.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.