Knowa: RAG 비용을 90% 절감하는 하이브리드 검색 및 지식 베이스 라이브러리

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Knowa는 대규모 문서 기반 RAG 시스템에서 발생하는 과도한 토큰 비용 문제를 해결하기 위해 설계된 하이브리드 검색 라이브러리이자 서버입니다. 이 도구는 벡터 검색, 전문 검색, 명명된 엔티티 그래프를 결합하여 질문과 가장 관련성 높은 데이터만 정밀하게 추출합니다. 기존 방식 대비 컨텍스트 입력량을 90~99% 줄여 API 비용을 절감하며, Python 라이브러리, REST API, CLI 등 다양한 형태로 배포 가능합니다. PostgreSQL과 pgvector를 기반으로 작동하며, spaCy 또는 LLM을 활용한 엔티티 추출을 통해 구조화된 지식 검색을 지원합니다.

배경

Python 3.11 이상, Docker (PostgreSQL 실행용), OpenAI API Key

대상 독자

프로덕션 환경에서 RAG 시스템을 구축하고 LLM API 비용을 최적화하려는 개발자

의미 / 영향

이 기술은 LLM 애플리케이션의 운영 비용을 획기적으로 낮춰, 대규모 지식 베이스를 활용한 RAG 서비스의 상용화 장벽을 크게 낮춥니다. 특히 엔티티 그래프를 활용한 구조적 검색은 단순 벡터 검색의 한계를 극복하여 더 정확한 답변을 가능하게 합니다.

섹션별 상세

기존 RAG 방식은 전체 문서를 프롬프트에 로드하여 대규모 토큰 비용을 유발하며, 이는 프로덕션 환경에서 예산 문제를 야기합니다.

Knowa는 벡터 청크, 전문 검색 페이지, 엔티티 그래프라는 세 가지 표현 방식을 사용하여 질문에 필요한 핵심 정보만 정밀하게 추출합니다.

근거

Knowa는 컨텍스트 입력량을 90~99% 줄여 API 비용을 절감합니다. — README의 'Features' 섹션 및 'Understanding token savings' 섹션

인덱싱 단계에서 spaCy를 사용해 로컬에서 엔티티를 추출하거나, 선택적으로 LLM을 사용하여 도메인 특화 엔티티를 강화함으로써 검색 정확도를 높입니다.

PostgreSQL 16과 pgvector를 기본 저장소로 사용하여 데이터 일관성을 유지하며, Notion, Confluence, 로컬 디렉토리 등 다양한 데이터 소스를 지원합니다.

제공되는 CLI 도구와 REST API를 통해 서버 없이도 로컬에서 즉시 인덱싱과 챗봇 테스트가 가능하며, 쿼리마다 토큰 절감 수치를 측정하여 효율성을 모니터링합니다.

Knowa의 작동 방식을 보여주는 데모 GIF입니다. — OtherKnowa의 CLI를 통한 인덱싱 및 쿼리 과정을 시각적으로 보여주며, 사용자가 터미널에서 어떻게 지식 베이스와 상호작용하는지 설명합니다.

용어 해설

RAG: — 외부 데이터베이스에서 관련 정보를 검색하여 LLM의 프롬프트에 주입하는 기술입니다. Knowa는 이 과정에서 불필요한 컨텍스트를 제거하여 비용과 지연 시간을 줄이는 데 집중합니다.
pgvector: — PostgreSQL 데이터베이스에서 벡터 임베딩을 저장하고 유사도 검색을 수행할 수 있게 해주는 확장 프로그램입니다. Knowa의 핵심 저장소로 사용됩니다.
Hybrid Search: — 벡터 기반의 의미론적 검색과 키워드 기반의 전문 검색(Full-text search)을 결합하여 검색 정확도를 높이는 기법입니다.

코드 예제

python

from knowa import KnowledgeBase
kb = KnowledgeBase()
kb.index("/path/to/docs", label="Engineering Docs")
context = kb.get_context("What is our deployment process?")

Knowa 라이브러리를 사용하여 문서를 인덱싱하고 컨텍스트를 추출하는 기본 예시입니다.

python

@app.post("/ask")
async def ask(question: str, source: str | None = None, kb: KnowledgeBase = Depends(get_kb)):
    chunks = await asyncio.to_thread(kb.retrieve, question, source)
    context = kb.format_context(chunks)
    answer = await your_llm(context, question)
    return {"answer": answer, "citations": [{"title": c.page_title, "url": c.url} for c in chunks if c.page_title]}

FastAPI에서 Knowa를 의존성 주입하여 RAG 파이프라인을 구축하는 예시입니다.

언급된 리소스

GitHubKnowa GitHub Repository