go-llm-proxy: 단일 엔드포인트로 모든 LLM 백엔드 통합 관리

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

go-llm-proxy는 여러 OpenAI 및 Anthropic 호환 백엔드를 단일 엔드포인트로 통합하는 초경량 보안 API 프록시이다. 데이터베이스나 복잡한 의존성 없이 단일 바이너리와 YAML 설정 파일만으로 작동하며, 로컬 모델과 클라우드 서비스를 동시에 관리할 수 있다. 요청별 메트릭을 SQLite에 기록하여 사용자별 토큰 소비량과 지연 시간을 추적하며, 내장된 설정 생성기를 통해 Claude Code 등 코딩 에이전트와의 연동을 지원한다. 내부 테스트 결과 SQLite 기반 로깅과 웹 대시보드를 통해 외부 서비스 없이도 효율적인 인프라 운영이 가능함이 확인됐다. 이 도구는 RAG 시스템이나 멀티 모델 환경을 구축하려는 개발자에게 비용 절감과 관리 편의성을 제공한다.

배경

Go 언어 환경 (바이너리 실행 가능), YAML 설정 방식에 대한 이해, OpenAI/Anthropic API 키 또는 로컬 LLM 엔진

대상 독자

로컬 및 클라우드 LLM 인프라를 통합 관리하려는 개발자

의미 / 영향

이 도구는 복잡한 API 관리 플랫폼 없이도 기업이나 개인이 LLM 사용량을 정밀하게 제어하고 비용을 최적화할 수 있게 한다. 특히 다양한 코딩 에이전트와 백엔드 모델 간의 호환성 문제를 해결하여 개발 생산성을 높인다.

섹션별 상세

여러 LLM 공급자를 하나의 주소로 묶어 관리하는 기능이 핵심이다. OpenAI Responses API와 Chat Completions 간의 자동 변환을 지원하여 서로 다른 규격의 모델을 코드 수정 없이 교체하며 사용할 수 있다. 이를 통해 vLLM, Ollama 같은 로컬 엔진과 OpenAI, Anthropic 같은 클라우드 API를 혼합 운영하는 환경에서 유연성을 확보한다. 인프라 복잡도를 낮추면서도 다양한 모델의 성능을 비교 테스트하기에 용이하다.

복잡한 인프라 구성 요소 없이 실행 가능한 구조를 지향한다. Redis나 외부 DB 없이 단일 정적 바이너리와 YAML 설정 파일만으로 구동되며, 설정 변경 시 프로세스 재시작 없이 실시간으로 반영되는 Hot Reload 기능을 포함한다. 의존성을 최소화하여 홈 서버나 로컬 환경에서도 부담 없이 LLM API 서버를 구축할 수 있다. 가벼운 실행 환경 덕분에 리소스가 제한된 환경에서도 안정적인 서빙이 가능하다.

API 요청 데이터를 SQLite에 저장하여 투명한 운영 정보를 제공한다. 웹 대시보드와 CLI 리포트를 통해 사용자별 토큰 사용량, 모델별 지연 시간, 에러율 등을 실시간으로 모니터링할 수 있다. API 키는 SHA-256 해시의 일부만 저장하는 보안 방식을 채택하여 개인정보를 보호하면서도 사용자를 식별한다. 외부 모니터링 서비스에 의존하지 않고도 데이터 주권을 유지하며 사용 통계를 관리할 수 있다.

bash

$ ./go-llm-proxy -usage-report -report-days 7
DATE USER REQUESTS INPUT TOK OUTPUT TOK TOTAL TOK
---- ---- -------- --------- ---------- ---------
2026-04-02 admin 342 1,245,000 312,000 1,557,000
2026-04-02 derek 128 489,000 122,000 611,000
// ...(중략)
=== User Summary ===
USER REQUESTS TOTAL TOK DAYS LAST SEEN
---- -------- --------- ---- ---------
admin 4,892 22,801,000 7 2026-04-02
derek 1,234 4,515,000 6 2026-04-02

CLI를 통해 최근 7일간의 사용자별 토큰 사용량 리포트를 생성하는 예시

Claude Code나 OpenAI Codex 같은 도구와의 연동 편의성을 극대화했다. 내장된 대화형 설정 생성기를 통해 각 도구에 맞는 JSON 또는 TOML 설정 파일과 실행 스크립트를 즉석에서 생성할 수 있다. 이는 개발자가 복잡한 환경 변수나 API 엔드포인트 설정을 수동으로 입력하는 번거로움을 줄여준다. 에이전트 기반 개발 워크플로우를 신속하게 구축하고 다양한 백엔드 모델을 실험하는 데 최적화되어 있다.

toml

config.toml
model = "MiniMax-M2.5"
model_provider = "go-llm-proxy"
model_reasoning_effort = "medium"
model_context_window = 196608

[model_providers.go-llm-proxy]
name = "Go-LLM-Proxy"
base_url = "https://llm.example.com/v1"
wire_api = "responses"
experimental_bearer_token = "sk-••••••"

설정 생성기를 통해 특정 모델과 코딩 에이전트를 연동하기 위해 생성된 TOML 설정 예시

실무 Takeaway

여러 LLM 공급자를 사용하는 환경에서 go-llm-proxy를 도입하면 클라이언트 코드 변경 없이 모델을 자유롭게 스위칭할 수 있다.
SQLite 기반의 내장 로깅 기능을 활성화하여 외부 모니터링 도구 없이도 팀 내 LLM 사용량과 비용을 정밀하게 관리할 수 있다.
보안을 위해 프로덕션 환경에서는 Nginx와 같은 리버스 프록시 뒤에 배치하여 TLS 터미네이션과 추가적인 속도 제한을 적용해야 한다.