핵심 요약
Vision LLM 요청을 가로채 이미지 리사이징, OCR 라우팅, 유사도 캐싱 등 9가지 기법으로 비용을 최대 53% 절감하는 오픈소스 API 프록시 Token0가 출시됐다.
배경
Vision LLM 비용이 텍스트 대비 2-5배 비싸지만 최적화 도구가 부족하다는 점을 해결하기 위해, 이미지와 비디오 요청을 자동으로 최적화하여 비용을 35-53% 절감하는 오픈소스 프록시 'Token0'를 개발하여 공유했다.
의미 / 영향
Vision LLM의 높은 비용 문제는 추론 엔진 단의 프록시 최적화를 통해 상당 부분 해결될 수 있음을 시사한다. 특히 OCR 라우팅과 지각적 해싱을 결합한 캐싱 전략은 실무적인 비용 절감의 핵심 요소로 확인됐다.
커뮤니티 반응
대체로 긍정적이며, 특히 비디오 최적화와 OCR 라우팅 기능에 대해 실무적인 관심이 높습니다.
주요 논점
Vision LLM의 높은 비용 문제를 해결하기 위해 프록시 단에서 자동 최적화를 수행하는 접근 방식이 매우 실용적이다.
합의점 vs 논쟁점
합의점
- Vision LLM 비용이 텍스트 대비 지나치게 비싸며 최적화가 필수적이라는 점에 동의한다.
- OpenAI 호환 API를 유지하면서 프록시 형태로 구현되어 도입 장벽이 낮다는 점을 긍정적으로 평가한다.
실용적 조언
- pip install token0 명령어로 설치 후 로컬에서 서버를 실행하여 즉시 테스트 가능하다.
- LiteLLM 사용자는 Token0Hook을 콜백에 추가하는 것만으로 기존 파이프라인에 최적화를 적용할 수 있다.
언급된 도구
섹션별 상세
코드 예제
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="unused", # Ollama doesn't need a key
)
response = client.chat.completions.create(
model="moondream",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "What's in this image?"},
{"type": "image_url", "image_url": {"url": "data:image/jpeg;base64,..."}}
]
}],
extra_headers={"X-Provider-Key": "unused"}
)OpenAI 호환 클라이언트를 사용하여 Token0 프록시를 통해 Vision LLM 요청을 보내는 예시
import litellm
from token0.litellm_hook import Token0Hook
litellm.callbacks = [Token0Hook()]
# All your existing litellm.completion() calls now get image optimizationLiteLLM 사용 시 콜백 기능을 통해 기존 코드 변경 없이 최적화를 적용하는 방법
실무 Takeaway
- Token0는 기존 코드 수정 없이 API 베이스 URL만 변경하여 Vision LLM 비용을 35-53% 절감할 수 있는 프록시 도구이다.
- 텍스트 위주의 이미지를 OCR로 자동 라우팅하고 OpenAI의 타일 구조에 맞춰 리사이징하는 등 9가지 최적화 기법을 자동으로 적용한다.
- QJL(Johnson-Lindenstrauss) 기반 퍼지 캐싱을 통해 촬영 각도가 약간 다른 유사 이미지에 대해서도 0토큰으로 응답이 가능하다.
- 비디오 처리 시 1fps 추출 및 중복 프레임 제거를 통해 1,800프레임 분량을 10개 내외의 핵심 프레임으로 압축하여 전송한다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.