Vision LLM 비용을 35-53% 절감하는 오픈소스 프록시 Token0 공개

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Vision LLM 요청을 가로채 이미지 리사이징, OCR 라우팅, 유사도 캐싱 등 9가지 기법으로 비용을 최대 53% 절감하는 오픈소스 API 프록시 Token0가 출시됐다.

배경

Vision LLM 비용이 텍스트 대비 2-5배 비싸지만 최적화 도구가 부족하다는 점을 해결하기 위해, 이미지와 비디오 요청을 자동으로 최적화하여 비용을 35-53% 절감하는 오픈소스 프록시 'Token0'를 개발하여 공유했다.

의미 / 영향

Vision LLM의 높은 비용 문제는 추론 엔진 단의 프록시 최적화를 통해 상당 부분 해결될 수 있음을 시사한다. 특히 OCR 라우팅과 지각적 해싱을 결합한 캐싱 전략은 실무적인 비용 절감의 핵심 요소로 확인됐다.

커뮤니티 반응

대체로 긍정적이며, 특히 비디오 최적화와 OCR 라우팅 기능에 대해 실무적인 관심이 높습니다.

주요 논점

01찬성다수

Vision LLM의 높은 비용 문제를 해결하기 위해 프록시 단에서 자동 최적화를 수행하는 접근 방식이 매우 실용적이다.

합의점 vs 논쟁점

합의점

Vision LLM 비용이 텍스트 대비 지나치게 비싸며 최적화가 필수적이라는 점에 동의한다.
OpenAI 호환 API를 유지하면서 프록시 형태로 구현되어 도입 장벽이 낮다는 점을 긍정적으로 평가한다.

실용적 조언

pip install token0 명령어로 설치 후 로컬에서 서버를 실행하여 즉시 테스트 가능하다.
LiteLLM 사용자는 Token0Hook을 콜백에 추가하는 것만으로 기존 파이프라인에 최적화를 적용할 수 있다.

언급된 도구

Token0추천링크

Vision LLM 비용 최적화 API 프록시

Ollama중립

로컬 LLM 실행 및 서빙 엔진

LiteLLM추천

다양한 LLM API 통합 라이브러리

섹션별 상세

텍스트 비중이 높은 이미지를 비전 토큰 대신 OCR로 처리하여 비용을 절감한다. 입력된 이미지의 텍스트 밀도를 91% 정확도의 휴리스틱으로 분석하여 기준 충족 시 텍스트로 변환해 모델에 전달한다. 영수증 이미지의 경우 약 750토큰이 소요되나 텍스트 변환 시 30-50토큰으로 줄어들어 최대 25배의 효율을 낸다. 비전 모델의 높은 단가를 텍스트 단가로 대체함으로써 전체 비용의 47-70%를 절약하는 실무적 이점이 있다.

지각적 해싱을 이용해 유사한 이미지에 대한 캐시 히트를 구현했다. Johnson-Lindenstrauss 정리를 활용한 압축 바이너리 시그니처와 Hamming 거리를 계산하여 촬영 각도나 압축률이 조금 다른 이미지도 동일한 것으로 인식한다. 실험 결과 이미지 변형이 있는 환경에서 추가로 62%의 비용 절감 효과가 확인됐다. 이는 단순 픽셀 매칭 캐시의 한계를 극복하여 실제 운영 환경에서의 캐시 효율을 극대화한다.

대용량 비디오 데이터를 핵심 프레임 단위로 압축하여 전송 효율을 높인다. 1fps 단위로 프레임을 추출한 뒤 QJL 해시로 중복을 제거하고 장면 전환을 감지하여 고유한 키프레임만 선별한다. 60초 분량의 30fps 비디오(1,800프레임)를 약 10개의 핵심 프레임으로 줄여 비전 파이프라인에 입력한다. 비디오 데이터의 중복성을 제거함으로써 API 비용과 추론 지연 시간을 동시에 단축한다.

OpenAI의 512px 타일 그리드 시스템에 최적화된 리사이징을 수행한다. 이미지를 모델이 처리하는 타일 경계값에 맞춰 조정함으로써 불필요한 타일 생성을 방지한다. 1280x720 이미지를 최적화하면 품질 손실 없이 타일 수를 4개에서 2개로 줄여 토큰 소모를 44% 절감한다. 모델의 내부 아키텍처 특성을 활용하여 데이터 품질은 유지하면서 비용만 선택적으로 제거하는 방식이다.

코드 예제

python

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="unused", # Ollama doesn't need a key
)

response = client.chat.completions.create(
    model="moondream",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "What's in this image?"},
            {"type": "image_url", "image_url": {"url": "data:image/jpeg;base64,..."}}
        ]
    }],
    extra_headers={"X-Provider-Key": "unused"}
)

OpenAI 호환 클라이언트를 사용하여 Token0 프록시를 통해 Vision LLM 요청을 보내는 예시

python

import litellm
from token0.litellm_hook import Token0Hook

litellm.callbacks = [Token0Hook()]
# All your existing litellm.completion() calls now get image optimization

LiteLLM 사용 시 콜백 기능을 통해 기존 코드 변경 없이 최적화를 적용하는 방법

실무 Takeaway

Token0는 기존 코드 수정 없이 API 베이스 URL만 변경하여 Vision LLM 비용을 35-53% 절감할 수 있는 프록시 도구이다.
텍스트 위주의 이미지를 OCR로 자동 라우팅하고 OpenAI의 타일 구조에 맞춰 리사이징하는 등 9가지 최적화 기법을 자동으로 적용한다.
QJL(Johnson-Lindenstrauss) 기반 퍼지 캐싱을 통해 촬영 각도가 약간 다른 유사 이미지에 대해서도 0토큰으로 응답이 가능하다.
비디오 처리 시 1fps 추출 및 중복 프레임 제거를 통해 1,800프레임 분량을 10개 내외의 핵심 프레임으로 압축하여 전송한다.

언급된 리소스

GitHubToken0 GitHub Repository

from openai import OpenAI client = OpenAI( base_url="http://localhost:8000/v1", api_key="unused", # Ollama doesn't need a key ) response = client.chat.completions.create( model="moondream", messages=[{ "role": "user", "content": [ {"type": "text", "text": "What's in this image?"}, {"type": "image_url", "image_url": {"url": "data:image/jpeg;base64,..."}} ] }], extra_headers={"X-Provider-Key": "unused"} )

Vision LLM 비용을 35-53% 절감하는 오픈소스 프록시 Token0 공개

핵심 요약

배경

의미 / 영향

커뮤니티 반응

주요 논점

합의점 vs 논쟁점

합의점

실용적 조언

언급된 도구

섹션별 상세

코드 예제

실무 Takeaway

언급된 리소스

Vision LLM 비용을 35-53% 절감하는 오픈소스 프록시 Token0 공개

핵심 요약

배경

의미 / 영향

커뮤니티 반응

주요 논점

합의점 vs 논쟁점

합의점

실용적 조언

언급된 도구

섹션별 상세

코드 예제

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드