OpenFeeder: 웹사이트 콘텐츠를 LLM에 최적화된 구조로 제공하는 오픈 표준

핵심 요약

현재 LLM이 웹사이트를 읽을 때 발생하는 불필요한 HTML 노이즈와 스크래핑 문제를 해결하기 위해 OpenFeeder 프로토콜이 제안되었다. 이 표준은 웹사이트가 특정 경로를 통해 LLM 전용 정형 데이터를 직접 노출하도록 하여 데이터 전송량을 최대 40배, 토큰 사용량을 100배까지 절감한다. 서버 측 어댑터를 통해 데이터베이스에서 직접 정보를 추출하므로 프런트엔드 렌더링 부하가 없으며 RAG 시스템과 AI 에이전트의 효율성을 극대화한다. 웹마스터는 이를 통해 AI가 자신의 콘텐츠를 소비하는 방식을 정밀하게 제어하고 보안을 강화할 수 있다.

배경

HTTP 프로토콜 및 REST API에 대한 이해, JSON 및 JSON-LD 데이터 구조에 대한 지식, 서버 측 웹 애플리케이션 개발 및 배포 경험

대상 독자

웹 개발자, AI 인프라 엔지니어, RAG 시스템 설계자, CMS 관리자

의미 / 영향

이 표준이 확산되면 AI 봇에 의한 웹 트래픽 부하가 획기적으로 줄어들고 AI 에이전트가 웹 정보를 습득하는 정확도와 속도가 비약적으로 향상될 것이다. 로봇 배제 표준이 검색 엔진 시대를 열었듯 OpenFeeder는 AI 중심의 웹 생태계에서 핵심적인 데이터 교환 규약이 될 가능성이 크다.

섹션별 상세

기존 웹 스크래핑의 한계와 OpenFeeder의 접근 방식은 근본적으로 다르다. 현재 LLM은 웹 페이지를 읽기 위해 수백 KB의 HTML 소스와 광고, 네비게이션 바 등 무의미한 데이터를 함께 처리해야 하는 비효율을 겪는다. OpenFeeder는 렌더링 파이프라인 이전의 서버 데이터 소스에서 직접 정형화된 JSON 데이터를 제공함으로써 이 문제를 해결한다. 이를 통해 불필요한 노이즈를 제거하고 LLM이 핵심 콘텐츠에 즉각적으로 접근할 수 있는 환경을 조성한다.

데이터 전송량과 추론 비용 측면에서 획기적인 절감 효과를 제공한다. 벤치마크 결과에 따르면 BBC News나 Ars Technica 같은 주요 사이트에서 OpenFeeder를 적용할 경우 데이터 전송량이 17~39배 감소한다. 이는 LLM 추론 시 입력 토큰 수를 약 100배까지 줄여주어 API 비용을 크게 낮추고 응답 속도를 향상시킨다. 또한 서버 측에서는 템플릿 렌더링이나 자산 파이프라인 실행이 필요 없어 인프라 부하와 대역폭 비용이 동시에 절감된다.

JSON-LD 기반의 정형 데이터 제공을 통해 LLM의 이해도를 높인다. OpenFeeder는 Schema.org의 JSON-LD를 활용하여 단순 텍스트가 아닌 타입이 지정된 필드 데이터를 제공한다. 예를 들어 레시피 사이트의 경우 재료, 조리 시간, 단계별 지침을 구조화된 배열로 전달하여 LLM이 별도의 파싱 과정 없이도 정확한 추론을 수행할 수 있게 돕는다. JSON-LD가 없는 사이트의 경우 OpenGraph 메타데이터나 HTML 콘텐츠 추출 방식을 통해 호환성을 유지한다.

다양한 구현 방식과 플랫폼 지원을 통해 도입 장벽을 낮췄다. OpenFeeder는 기존 사이트의 코드를 수정하지 않고도 Docker 컨테이너로 실행할 수 있는 유니버설 사이드카 방식을 지원한다. 또한 WordPress, Drupal, Joomla와 같은 주요 CMS를 위한 네이티브 플러그인을 제공하여 데이터베이스에 직접 접근하는 최적화된 경로를 구축할 수 있다. 향후 Next.js, Astro, FastAPI 등 현대적인 프레임워크를 위한 어댑터도 출시될 예정이다.

보안 및 프라이버시 제어 기능을 통해 AI 에이전트의 접근을 관리한다. 웹마스터는 OpenFeeder를 통해 AI에게 노출할 콘텐츠의 범위와 깊이를 명확히 정의할 수 있다. 기본적으로 임시 저장글, 비공개 포스트, 비밀번호 보호 콘텐츠는 제외되며 API 키를 통한 접근 제한이나 특정 경로 제외 설정이 가능하다. 이는 AI가 웹사이트를 무분별하게 스크래핑하여 잘못된 정보를 생성하거나 민감한 데이터를 수집하는 것을 방지하는 게이트키퍼 역할을 수행한다.

</> 코드 예제 포함

실무 Takeaway

LLM 전용 엔드포인트를 구축하여 웹 스크래핑 대비 입력 토큰 비용을 최대 99% 절감하고 RAG 시스템의 성능을 개선할 수 있다.
서버 측 어댑터를 사용하면 프런트엔드 프레임워크 종류에 관계없이 데이터베이스의 원본 데이터를 LLM에 직접 전달하여 정확도를 높인다.
Discovery 기능을 통해 AI 봇이 웹사이트의 구조를 효율적으로 파악하고 증분 동기화를 수행할 수 있도록 지원해야 한다.

언급된 리소스

DemoSketchyNews Demo

GitHubOpenFeeder GitHub Repository