왜 중요한가
수십 개의 고성능 LLM 중 어떤 모델이 특정 질문에 가장 적합한지 판단하는 것은 매우 어렵다. 이 논문은 데이터에서 수백 개의 미세한 작업 유형을 자동으로 찾아내고 각 작업에 특화된 전문가를 배치함으로써, 최강 모델의 성능을 뛰어넘으면서도 비용을 50% 이상 절감하는 실질적인 방법을 제시한다.
핵심 기여
그래프 기반 자동 미세 작업 발견
프롬프트의 의미적 유사성과 모델 성능 패턴을 결합한 그래프 클러스터링을 통해 사람이 정의하기 힘든 수백 개의 미세 작업 유형을 자동으로 식별한다.
작업 인식형 MoE 아키텍처
식별된 작업 구조를 기반으로 특정 작업에 최적화된 예측 헤드를 호출하여, 단일 모델 라우터보다 훨씬 정교하게 모델별 품질을 추정한다.
프론티어 모델 대상의 비용 효율성 입증
11개의 최신 모델을 대상으로 한 실험에서 가장 강력한 단일 모델의 성능을 능가하면서도 추론 비용은 절반 이하로 줄이는 성과를 거두었다.
핵심 아이디어 이해하기
프롬프트 라우팅은 질문마다 가장 잘 대답할 모델을 골라주는 기술이다. 기존에는 '수학'이나 '코딩'처럼 넓은 범주로 나누어 모델을 배정했지만, 실제로는 같은 수학 안에서도 기호 계산에 강한 모델과 문장제 문제에 강한 모델이 다르다. FineRouter는 이러한 미세한 차이를 잡기 위해 질문들을 수백 개의 작은 '잠재 작업'으로 쪼개는 것에서 시작한다. 이 과정에서 단순히 글자가 비슷한 질문을 묶는 것이 아니라, '어떤 모델들이 이 질문에서 비슷한 성능 순위를 보이는가'라는 성능 데이터를 임베딩과 결합하여 그래프를 그린다. 이를 통해 겉보기에는 달라도 실제로는 같은 해결 능력을 요구하는 질문들을 하나의 클러스터로 묶어낸다. 이렇게 분류된 각 클러스터마다 전용 '전문가(Adapter)'를 학습시킨다. 질문이 들어오면 먼저 어떤 미세 작업에 속하는지 분류하고, 해당 작업의 전문가가 각 모델의 예상 점수를 계산한다. 이는 마치 종합병원에서 예진을 통해 전문의에게 환자를 보내는 것과 같아, 전체적인 판단의 정확도를 획기적으로 높인다.
방법론
1단계는 오프라인에서 작업 유형을 발견하고 분류기를 학습시키는 과정이다. 먼저 LLM을 이용해 각 프롬프트의 핵심 의도를 한 문장으로 요약하고 이를 벡터화한다. 동시에 후보 모델들의 성능 순위를 매긴 뒤, [요약문의 의미적 유사도와 성능 순위의 유사도(RBO)를 입력으로] → [기하 평균 연산을 수행해] → [프롬프트 간 연결 가중치를 얻고] → [Leiden 알고리즘으로 클러스터링하여 수백 개의 미세 작업을 정의한다]. 2단계는 온라인 라우팅을 위한 MoE 기반 품질 추정 모델을 구축한다. 각 미세 작업별로 성능이 우수한 상위 모델들을 선정하고, 이들에 특화된 전용 어댑터를 구성한다. 질문이 들어오면 [프롬프트 인코더의 출력값과 모델 ID 임베딩을 입력으로] → [작업별 어댑터와 일반 어댑터를 통과시켜] → [각 모델의 예상 품질 점수를 계산하고] → [가장 높은 점수를 받은 모델을 선택해 질문을 전달한다]. 학습은 단계별 최적화 전략을 따른다. 먼저 전체 데이터를 사용해 공통 인코더와 일반 예측 헤드를 학습시킨 후, 인코더를 고정한 상태에서 작업별 레이블 데이터를 이용해 전용 어댑터들만 미세 조정한다. 이 방식은 공유된 지식을 유지하면서도 특정 작업에 대한 전문성을 극대화한다.
주요 결과
10개의 벤치마크와 11개의 프론티어 모델(Claude-Sonnet-4.5, DeepSeek-R1, Llama-4-Maverick 등)을 대상으로 실험했다. FineRouter는 평균 품질 점수 0.652를 기록하며, 비교 대상 중 가장 강력한 단일 모델인 Claude-Sonnet-4.5(0.621)를 유의미하게 앞질렀다. 비용 대비 성능 분석에서 FineRouter는 Claude-Sonnet-4.5 단일 사용 시 발생하는 비용의 50% 미만으로 더 높은 성능을 달성했다. 이는 고비용 모델이 반드시 필요한 어려운 작업에만 자원을 집중하고, 쉬운 작업은 저비용 모델로 처리하는 정교한 배분이 가능했기 때문이다. Ablation Study를 통해 자동 발견된 미세 작업의 효과를 검증했다. 사람이 수동으로 정한 10개 카테고리를 사용했을 때보다 FineRouter의 자동 클러스터링을 사용했을 때 라우팅 정확도가 더 높게 나타났으며, 이는 데이터 기반의 작업 분류가 모델의 실제 강점을 더 잘 반영함을 시사한다.
실무 활용
다양한 LLM API를 혼합하여 사용하는 기업용 AI 게이트웨이 시스템에 즉시 적용 가능한 구조이다. 성능 저하 없이 운영 비용을 획기적으로 줄여야 하는 실무 환경에 최적화되어 있다.
- 멀티 모델 API 게이트웨이의 지능형 라우팅 엔진
- 도메인 특화 데이터셋을 활용한 기업 맞춤형 모델 선택기
- 신규 오픈소스 모델과 유료 API 간의 최적 가성비 조합 구성
기술 상세
전체 아키텍처는 프롬프트 인코더, LLM 임베딩 레이어, 그리고 작업 인식형 품질 추정(QE) 레이어로 나뉜다. QE 레이어는 모든 모델에 대한 일반적인 성능을 예측하는 MLP 기반 일반 어댑터와, 특정 작업 클러스터 내에서 모델 간의 미세한 차이를 학습하는 작업 전용 어댑터가 공존하는 MoE 구조이다. 작업 발견 시 사용되는 RBO(Rank-Biased Overlap)는 상위 순위의 일치 여부에 가중치를 두는 지표이다. [두 프롬프트에 대한 모델 성능 순위 목록을 입력으로] → [RBO 수식을 적용해] → [0에서 1 사이의 유사도 점수를 산출하고] → [이 점수가 높을수록 두 질문이 모델들에게 비슷한 난이도와 해결 방식을 요구함을 나타낸다]. 이를 통해 성능 패턴이 일치하는 질문들을 정교하게 묶는다. 추론 시 효율성을 위해 작업 분류기는 단 한 번의 순전파(Forward Pass)만 수행하며, 예측된 작업에 해당하는 어댑터만 활성화한다. 이 설계 덕분에 발견된 작업의 수가 수백 개로 늘어나더라도 실제 추론 시 계산 복잡도는 일정하게 유지되어 대규모 시스템 확장이 용이하다.
한계점
작업 발견 과정에서 프롬프트 요약을 생성하는 LLM과 성능을 평가하는 보상 모델(Reward Model)의 품질에 결과가 의존적이다. 또한 현재는 텍스트 기반 프롬프트만 지원하며, 이미지나 오디오가 포함된 멀티모달 입력에 대한 작업 발견은 향후 연구 과제로 남아있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.