LLM 분류 비용을 99% 절감하는 5단계 최적화 전략

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

이 아티클은 이커머스 앱의 상품 카테고리 분류 시스템에서 발생하는 과도한 LLM 비용 문제를 해결하기 위한 5단계 최적화 과정을 다룹니다. 초기에는 상품당 25,000개의 토큰이 소모되었으나, 프롬프트 구조 개선과 데이터베이스 기반의 캐싱 전략을 통해 이를 100개 수준으로 줄였습니다. 특히 Postgres의 pg_trgm을 활용한 유사도 캐싱과 2단계 계층 분류 방식이 핵심적인 역할을 했습니다. 결과적으로 월간 비용을 80% 이상 절감하면서도 분류 정확도를 유지하는 데 성공했습니다.

배경

LLM API(OpenAI 등) 사용 경험, PostgreSQL 기본 지식, 토큰(Token) 개념에 대한 이해

대상 독자

LLM 기반 분류 시스템을 운영하며 비용 최적화가 필요한 백엔드 및 AI 엔지니어

의미 / 영향

이 사례는 고가의 LLM 서비스를 대규모 데이터 처리에 활용할 때, 단순한 프롬프트 엔지니어링을 넘어 전통적인 DB 기술과 계층적 설계가 비용 효율성에 결정적인 영향을 미친다는 점을 시사합니다.

섹션별 상세

장황한 JSON 형식을 간결한 텍스트 인코딩으로 변경하여 컨텍스트 크기를 대폭 줄였습니다. 불필요한 속성 메타데이터를 제거하고 '이름|ID' 형태의 계층 구조로 프롬프트를 재구성하여 토큰 사용량을 52% 절감했습니다. 이는 LLM이 사람이 읽기 좋은 형식보다 구조화된 텍스트를 효율적으로 처리한다는 점을 활용한 것입니다.

전체 카테고리 트리를 한 번에 보내는 대신 루트 카테고리를 먼저 정하고 해당 하위 트리만 전송하는 2단계 분류 방식을 도입했습니다. 1단계에서 약 30개의 루트 카테고리 중 하나를 선택하고, 2단계에서 관련 하위 트리만 참조함으로써 토큰 사용량을 기존 대비 95%까지 낮췄습니다. 이 방식은 지연 시간은 다소 늘어나지만 분류의 집중도와 정확도를 높이는 효과가 있습니다.

데이터베이스에 이미 저장된 동일 상품명을 정규화하여 조회함으로써 LLM 호출 자체를 생략했습니다. 공백 제거, 소문자 변환 등의 전처리를 거친 정확한 매칭을 통해 전체 요청의 20-30%를 비용 없이 처리했습니다. 이는 캐시 테이블을 별도로 운영하지 않고 기존 상품 테이블을 활용하여 구현 효율성을 높였습니다.

Postgres의 pg_trgm 확장을 사용하여 정확히 일치하지 않지만 유사한 상품명에 대해 캐시된 결과를 재사용했습니다. GIN 인덱스를 활용해 0.5~0.6 이상의 유사도를 가진 기존 분류 결과를 참조함으로써 추가로 40%의 LLM 호출을 제거했습니다. 별도의 벡터 임베딩 없이도 충분히 높은 정확도의 유사도 검색을 구현할 수 있음을 입증했습니다.

sql

CREATE EXTENSION pg_trgm;
CREATE INDEX idx_order_products_name_trgm ON order_products USING gin (name gin_trgm_ops);

SELECT category_l1_id, category_l2_id, category_l3_id, similarity(name, $1) AS sim
FROM order_products
WHERE category_l1_id IS NOT NULL AND name % $1
ORDER BY sim DESC LIMIT 1;

Postgres의 pg_trgm 확장을 사용하여 유사한 상품명을 기반으로 카테고리를 조회하는 코드

공통된 컨텍스트를 공유하는 여러 상품을 하나의 프롬프트에 묶어 처리하는 배치 분류를 적용했습니다. 루트 카테고리 목록과 같은 고정 비용 성격의 토큰을 여러 상품이 공유하게 하여 상품당 평균 토큰 소모량을 110개까지 낮췄습니다. 이는 특히 신규 상품이 대량으로 유입될 때 비용 효율성을 극대화하는 전략입니다.

실무 Takeaway

프롬프트에 JSON 대신 구분자 기반의 압축 텍스트를 사용하면 정확도 손실 없이 토큰 비용을 50% 이상 즉시 절감할 수 있다.
Postgres의 pg_trgm과 GIN 인덱스를 활용하면 고비용의 벡터 DB 없이도 효율적인 텍스트 유사도 캐싱 시스템을 구축할 수 있다.
계층적 구조를 가진 분류 작업은 2단계(Coarse-to-Fine)로 나누어 처리함으로써 컨텍스트 윈도우 사용량을 90% 이상 줄일 수 있다.

언급된 리소스

문서pg_trgm documentation

CREATE EXTENSION pg_trgm; CREATE INDEX idx_order_products_name_trgm ON order_products USING gin (name gin_trgm_ops); SELECT category_l1_id, category_l2_id, category_l3_id, similarity(name, $1) AS sim FROM order_products WHERE category_l1_id IS NOT NULL AND name % $1 ORDER BY sim DESC LIMIT 1;

LLM 분류 비용을 99% 절감하는 5단계 최적화 전략

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

LLM 분류 비용을 99% 절감하는 5단계 최적화 전략

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드