핵심 요약
LLM을 분류 작업에 사용할 때 발생하는 높은 비용 문제를 해결하기 위해, 실제 운영 로그(Trace)를 활용해 가벼운 대체 모델(Surrogate)을 자동으로 학습시키고 배포하는 시스템을 제안한다. 개발자가 수동으로 데이터를 라벨링할 필요 없이 운영 과정에서 스스로 성능을 개선하는 플라이휠 구조를 갖추고 있어 실무적인 가치가 매우 높다.
왜 중요한가
LLM을 분류 작업에 사용할 때 발생하는 높은 비용 문제를 해결하기 위해, 실제 운영 로그(Trace)를 활용해 가벼운 대체 모델(Surrogate)을 자동으로 학습시키고 배포하는 시스템을 제안한다. 개발자가 수동으로 데이터를 라벨링할 필요 없이 운영 과정에서 스스로 성능을 개선하는 플라이휠 구조를 갖추고 있어 실무적인 가치가 매우 높다.
핵심 기여
트레이스 기반 자동 학습 플라이휠
LLM의 입출력 로그를 학습 데이터로 활용하여 별도의 수동 라벨링 없이도 고성능의 가벼운 대체 모델을 지속적으로 업데이트하는 구조를 구현했다.
안전한 배포를 위한 Parity Gate 도입
대체 모델이 LLM(Teacher)과 일치하는 정도가 설정된 임계값 α를 초과할 때만 활성화되도록 설계하여 신뢰할 수 없는 모델의 배포를 자동으로 차단한다.
설명 가능한 라우팅 경계 생성
대체 모델이 어떤 데이터를 처리하고 어떤 데이터를 LLM으로 넘기는지(Defer)에 대한 근거를 Slice Summary와 Contrastive Boundary Pairs 등의 시각적 자료로 제공한다.
핵심 아이디어 이해하기
기존의 LLM 라우팅 방식은 사전에 준비된 대규모 라벨링 데이터셋이 필요하다는 한계가 있다. TRACER는 LLM이 이미 생성한 응답 자체가 완벽한 학습 데이터(Trace)라는 점에 착안한다. LLM 호출 시 발생하는 입력과 출력을 실시간으로 수집하여 임베딩 공간에 매핑하고, 이를 기반으로 로지스틱 회귀나 MLP와 같은 가벼운 고전적 ML 모델을 학습시킨다.
이 과정에서 핵심은 '언제 대체 모델을 믿을 것인가'이다. TRACER는 대체 모델의 출력 확률 분포에서 추출한 신뢰도 점수를 입력으로 받는 별도의 Acceptor 모델을 둔다. Acceptor는 특정 입력에 대해 대체 모델이 LLM과 일치할 확률을 예측하며, 이 확률이 사용자가 정한 기준(α)을 넘을 때만 저비용 모델이 추론을 담당하게 한다.
결과적으로 데이터가 쌓일수록 대체 모델이 커버할 수 있는 영역(Coverage)이 넓어지며, 복잡하거나 모호한 입력만 LLM으로 전달되는 구조가 형성된다. 이는 전체 시스템의 정확도는 유지하면서도 연산 비용과 지연 시간을 획기적으로 줄이는 결과를 낳는다.
방법론
전체 시스템은 LLM(Teacher), 대체 모델(Surrogate), 그리고 수락 모델(Acceptor)로 구성된다. 운영 로그에서 수집된 텍스트는 BGE-large-en-v1.5 모델을 통해 1024차원의 고정된 벡터로 변환되어 저장된다. Surrogate는 이 임베딩을 입력받아 분류를 수행하며, Acceptor는 Surrogate의 출력 확률(Softmax 결과)을 분석하여 라우팅 여부를 결정한다.
Acceptor는 Surrogate의 출력에서 네 가지 특징값(Top-1 확률, Top-2 확률, 두 확률의 차이, 정규화된 엔트로피)을 입력으로 받아 로지스틱 회귀를 수행한다. [Surrogate의 클래스별 확률 분포 → 4개 신뢰도 지표 추출 → 로지스틱 회귀 연산 → 0~1 사이의 일치 확률 예측] 과정을 거치며, 이 값이 임계값 τ보다 크면 Surrogate가 결과를 내놓고 그렇지 않으면 LLM으로 작업을 위임한다.
학습은 Continual Learning 방식으로 이루어진다. tracer.update() 함수가 호출될 때마다 누적된 모든 트레이스를 사용하여 모델을 처음부터 다시 학습(Refit)하며, 이때 Parity Gate를 통해 검증 데이터셋에서의 성능이 기준치 α를 만족하는지 확인한다. 만약 기준을 통과하지 못하면 시스템은 안전을 위해 모든 요청을 LLM으로 보내는 기본 상태로 복구된다.
주요 결과
CLINC150 벤치마크(150개 클래스)에서 TRACER는 α=0.95 설정 시에도 100%의 커버리지를 달성하며 Claude 3.5 Sonnet을 완전히 대체했다. 이는 특정 도메인의 의도 분류 작업이 임베딩 공간에서 명확하게 구분될 수 있음을 시사한다.
Banking77 데이터셋(77개 클래스)에서는 품질과 비용의 트레이드오프가 관찰되었다. α=0.80일 때는 100% 커버리지를 달성했으나, 가장 엄격한 기준인 α=0.95에서는 83.2%의 커버리지를 기록했다. 이 경우에도 전체 비용의 83%를 절감하면서 LLM 단독 사용 시와 유사한 정확도를 유지했다.
반면 MNLI(자연어 추론) 태스크에서는 Parity Gate가 모든 배포 시도를 차단했다. 이는 문장 간의 논리적 관계를 파악해야 하는 작업의 특성상 고정된 문장 임베딩만으로는 신뢰할 수 있는 분류 경계를 형성할 수 없음을 시스템이 스스로 판단하여 오작동을 방지한 사례이다.
기술 상세
TRACER 아키텍처는 'Learning to Defer(L2D)' 프레임워크를 프로덕션 환경에 맞게 최적화했다. 핵심 차별점은 Ground-truth 라벨 대신 LLM의 응답을 라벨로 사용하는 'Teacher-trace' 방식이다. 이는 모델이 실제 정답이 아닌 '선생님(LLM)의 행동'을 모방하게 함으로써, 데이터 분포의 변화(Drift)에 유연하게 대응하게 한다.
해석 가능성을 위해 제공되는 'Contrastive Boundary Pairs'는 동일한 라벨을 가졌음에도 한쪽은 Surrogate가 처리하고 다른 쪽은 Defer된 사례를 비교 분석한다. 이를 통해 개발자는 '어떤 어휘적 모호함이 모델의 불확실성을 유발하는지'를 파악할 수 있다. 또한 'Slice Summary'는 클래스별로 Surrogate의 처리율을 보여주어 특정 카테고리에서 성능이 정체되는 현상을 진단하게 돕는다.
구현 측면에서는 BGE 임베딩을 캐싱하여 중복 연산을 방지하며, Surrogate 모델로 Logistic Regression부터 MLP, Random Forest까지 다양한 후보군을 학습시킨 후 Macro-F1 점수가 가장 높은 모델을 자동으로 선택하는 AutoML 요소를 포함하고 있다.
한계점
현재 시스템은 고정된 문장 임베딩(Frozen Embeddings)에 의존하므로, MNLI와 같이 복잡한 구성적 추론이 필요한 작업에서는 성능이 제한적이다. 또한 매 업데이트마다 전체 데이터를 다시 학습시키는 방식은 데이터 규모가 매우 커질 경우 연산 부담이 될 수 있어 증분 학습(Incremental Fitting) 도입이 향후 과제로 남아있다.
실무 활용
LLM 기반의 의도 분류(Intent Classification)나 감성 분석 등을 운영하는 팀에서 즉시 도입하여 API 비용을 80% 이상 절감할 수 있는 오픈소스 솔루션이다.
- 고객 센터 챗봇의 대규모 의도 분류 작업 비용 최적화
- 실시간 텍스트 모니터링 및 카테고리 분류 시스템의 지연 시간 단축
- 라벨링 데이터가 없는 신규 서비스의 점진적 자동화 모델 구축
- LLM 응답의 신뢰도를 모니터링하고 설명 가능한 근거를 확보해야 하는 금융/의료 도메인
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.