sturnus: 대기 시간 기반 라우팅으로 LLM 공급자 간 트래픽 자동 최적화하는 경량 사이드카

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

지연 시간과 가용성 차이가 큰 다-provider LLM 환경에서 서비스 품질이 흔들린다. sturnus는 OpenAI 호환 API를 단일 정적 바이트로 제공하는 사이드카로, 가장 빠르고 건강한 공급자에게 트래픽을 집중시켜 안정성을 높인다.

입력은 OpenAI API 형식으로 전달되며, sturnus는 각 후보 공급자에 대해 응답 시간과 성공률의 지표를 EWMA로 추정한다. 모델 이름은 실제 후보로 재작성되고, best_effective 대비 각 후보의 효과를 기반으로 가중치를 부여한다. 그 가중치를 골든레이션 Weyl 시퀀스가 구동해 트래픽 분배를 결정하고, 더 악화된 후보는 점차 트래픽 비중이 축소되지만 복구 시 다시 비중이 회복된다. 또한 Vertex AI 같은 외부 벤더도 인증 방식과 라우팅 정보를 통해 함께 작동한다.

결과적으로 sturnus는 제로 인프라의 경량 사이드카로 다-provider 라우팅의 속도와 안정성을 동시에 향상시키되, 비용 최적화나 품질 기반의 라우팅까지 확장하려는 큰 플랫폼이 아니다. 간단한 구성으로 OpenAI-호환 SDK를 거의 그대로 활용할 수 있으며, LLMOps를 전면적으로 대체하기보다는 빠른 판단과 실험에 적합한 경량 솔루션으로 작용한다.

섹션별 상세

다-provider LLM 환경에서 공급자 간 지연 시간과 가용성 차이가 서비스 품질에 큰 영향을 주며, 이를 해결하는 경량 솔루션이 필요하다.

sturnus는 OpenAI API 형식으로 요청을 받아 각 공급자의 지연과 성공률을 EWMA로 추정하고, 최적 후보를 대다수 트래픽으로 밀어 넣도록 가중치를 적용한다. 이 과정에서 골든 레이트- Weyl 시퀀스가 결정하는 결정적 분배를 사용한다.

모든 요청의 모델 이름은 실제 후보 모델로 재작성되며, 에러 상태 피드백은 EWMA를 통해 반영된다. 세션 친화성과 메모리 예산 제어를 포함한 운영 특성도 함께 제공된다.

Vertex AI 지원 및 제로 인프라 설계 등 배포 관점의 설계 선택이 명확하며, LLMOps 전용 플랫폼이 아니라도 빠르게 도입 가능한 경량 솔루션이다.

코드 예제

toml

[provider.openai]
base_url = "https://api.openai.com/v1"
api_key = "${OPENAI_API_KEY}"

[provider.vertex]
vertex_ai = { project_id = "my-gcp-project", location = "us-central1" }

# Model map 예시
[model]
fast = [ { provider = "openai", model = "gpt-4o-mini" }, { provider = "vertex", model = "google/gemini-2.5-flash" } ]

입력 대상을 다수의 공급자로 라우팅하기 위한 구성 예시로, provider와 모델 매핑을 보여준다.

실무 Takeaway

입력 → 처리 → 출력의 흐름에서 다-provider 라우팅의 핵심은 지연 및 성공률 기반의 EWMA 추적과 가중치 합산이다. 이를 통해 가장 빠른 공급자가 트래픽의 대부분을 차지하도록 한다.
골든-레이션 Weyl 시퀀스는 서로 다른 후보 간 트래픽 분배를 결정하는 결정적 순서를 제공해, 빠르게 수집된 샘플이 있더라도 느린 후보에 과도하게 집중되지 않도록 한다.
제로 인프라 디자인은 릴리스 관리와 보안성을 높이면서, OpenAI 호환 SDK를 그대로 사용하게 해 빠른 도입이 가능하게 한다.
Vertex AI를 포함한 벤더 간 인증 및 비용 추적은 운용 시나리오에 따라 선택적으로 확장 가능하다.

언급된 리소스

문서config.example.toml

GitHubsturnus GitHub Repository

Demosturnus Docker image on GHCR