Cachet: 로컬에서 동작하는 LLM API 캐시로 비용과 지연을 줄인다

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Cachet은 LLM API 앞단에 로컬 캐시를 두어 중복 프롬프트의 비용과 지연을 실시간으로 줄인다. 입력을 정확히 같은 경우 해시로 즉시 캐시에서 응답하고, 의미적으로 유사한 입력은 코사인 유사도 기반의 세맨틱 매칭으로 매칭하여 캐시를 재활용한다. 이 로컬 캐시는 임베딩 API나 벡터DB를 필요로 하지 않으며, Rust로 작성된 단일 바이너리로 배포되어 즉시 활용 가능하고, 대시보드에 실시간 절감액과 히트를 표시한다. 향후 neural embedder 도입 및 디스크 기반 캐시 등 확장 roadmap이 존재한다.

섹션별 상세

중복 프롬프트에 대한 비용과 대기시간 문제를 해결하기 위해 Cachet은 로컬 세맨틱 캐시를 도입하였다. 입력이 완전히 동일하면 해시로 즉시 캐시에서 응답을 반환하고, 의미적으로 가까운 프롬프트는 코사인 유사도 기반의 세맨틱 매칭으로 매칭하여 업스트림 호출을 피한다. 대시보드에는 실시간으로 추정 절감액이 표시되어 효과를 확인할 수 있다.

또한 Cachet은 업스트림에 도달하기 전 로컬에서 응답을 제공하므로 요청-응답 경로가 단축되고 외부 API의 비용이 크게 감소한다. 벤치마크 수치는 문서에 구체적으로 제시되지는 않으나, 연속 프롬프트의 재사용으로 hit 비율이 증가하는 패턴이 관찰된다.

링크된 예시: OpenAI의 API 엔드포인트를 대상으로 한 테스트가 가능하며, 대시보드의 실시간 히트 수와 절감액이 즉시 확인된다.

로컬 캐시를 사용하면 프라이버시를 유지하면서도 재생 가능한 프롬프트에 대해 비용 효율성과 반응 속도 개선이 가능하다.