Pluckr: LLM 기반의 스키마 우선 자가 치유형 HTML 데이터 추출 도구

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

웹 데이터 추출 과정에서 사이트 구조 변경으로 인해 스크래퍼가 파손되는 문제는 개발자의 주요 유지보수 부담이다. Pluckr는 LLM을 활용해 사용자가 정의한 Zod 스키마에 맞는 CSS 선택자를 자동으로 생성하고 관리함으로써 이 문제를 해결한다. 성공한 선택자는 캐싱하여 비용을 절감하고, 페이지 구조가 바뀌면 AI가 스스로 선택자를 수정하는 자가 치유 기능을 제공한다. 결과적으로 개발자는 복잡한 선택자 작성 없이 안정적인 데이터 추출 파이프라인을 운영할 수 있다.

배경

TypeScript/JavaScript 기초, Zod 라이브러리 이해, LLM API 키 (Google, OpenAI 등)

대상 독자

웹 스크래핑 자동화 및 데이터 추출 파이프라인을 구축하는 개발자

의미 / 영향

전통적인 규칙 기반 스크래핑의 한계를 AI로 극복하여 유지보수 비용을 획기적으로 낮춘다. 데이터 추출의 자동화 수준을 높여 비정형 웹 데이터를 정형 데이터로 변환하는 파이프라인 구축을 가속화한다.

섹션별 상세

Pluckr는 사용자가 Zod 스키마로 데이터 구조를 정의하면 LLM이 원본 HTML을 분석하여 각 필드에 적합한 CSS 선택자를 생성한다. 이 과정은 에이전트 루프를 통해 선택자를 테스트하고 검증하는 단계를 포함하여 추출의 정확도를 높인다. 개발자는 더 이상 복잡한 HTML 구조를 직접 분석하여 선택자를 작성할 필요가 없다.

typescript

import { Pluckr } from '@pluckr/core'; import { google } from '@ai-sdk/google'; import { z } from 'zod'; const pluckr = new Pluckr({ model: google('gemini-2.5-pro'), }); const result = await pluckr.extract({ html: '...', schema: z.object({ title: z.string(), price: z.coerce.number().positive(), inStock: z.coerce.boolean(), }), cacheKey: 'product-page', }); if (result.success) { console.log(result.data); } await pluckr.close();

Zod 스키마를 정의하고 Pluckr를 사용하여 HTML에서 데이터를 추출하는 기본 예시

생성된 선택자는 SQLite나 Redis와 같은 저장소에 캐싱되어 이후 동일한 페이지 구조를 처리할 때 LLM 호출 없이 즉시 데이터를 추출한다. 이는 API 비용을 절감하고 처리 속도를 비약적으로 향상시키는 핵심 메커니즘이다. 분산 환경에서는 Redis를 통해 여러 프로세스가 캐시를 공유할 수 있어 확장성도 뛰어나다.

웹사이트의 HTML 구조가 변경되어 기존 선택자가 작동하지 않을 경우 시스템이 이를 자동으로 감지한다. 이후 LLM을 재호출하여 새로운 선택자를 찾아내고 캐시를 갱신하는 자가 치유 프로세스를 수행한다. 이를 통해 웹사이트 업데이트 때마다 스크래퍼가 중단되는 현상을 방지하고 유지보수 공수를 최소화한다.

Vercel AI SDK를 지원하여 Google, Anthropic, OpenAI 등 다양한 모델을 선택해 사용할 수 있으며, Puppeteer나 Playwright와 같은 브라우저 자동화 도구와 결합하여 동적 콘텐츠도 손쉽게 처리한다. 사용자는 자신의 환경에 맞는 모델과 HTML 소스를 자유롭게 선택하여 통합할 수 있는 유연성을 가진다.

실무 Takeaway

Zod 스키마를 통해 데이터 타입을 강제함으로써 추출된 데이터의 신뢰성을 확보하고 후속 처리 과정에서의 오류를 방지한다.
선택자 캐싱과 자가 치유 기능을 결합하여 LLM 비용 효율성과 스크래퍼 유지보수의 편의성을 동시에 달성한다.
특정 AI 모델이나 HTML 소스에 종속되지 않는 유연한 아키텍처를 활용하여 기존의 다양한 웹 자동화 워크플로우에 쉽게 통합할 수 있다.

언급된 리소스

문서@pluckr/core