핵심 요약
Hugging Face에 수십만 개의 모델이 쏟아지는 상황에서, 내 데이터셋에 어떤 모델이 가장 좋을지 일일이 테스트하는 것은 불가능에 가깝다. 이 논문은 모델을 직접 실행해보지 않고도 공개된 리더보드 기록과 메타데이터만으로 최적의 모델을 순위 매겨주는 통합 프레임워크를 제시하여 모델 선택 비용을 획기적으로 줄여준다.
왜 중요한가
Hugging Face에 수십만 개의 모델이 쏟아지는 상황에서, 내 데이터셋에 어떤 모델이 가장 좋을지 일일이 테스트하는 것은 불가능에 가깝다. 이 논문은 모델을 직접 실행해보지 않고도 공개된 리더보드 기록과 메타데이터만으로 최적의 모델을 순위 매겨주는 통합 프레임워크를 제시하여 모델 선택 비용을 획기적으로 줄여준다.
핵심 기여
ModelLens 프레임워크 제안
공개 리더보드의 파편화된 상호작용 데이터를 활용하여 모델의 성능을 예측하고 순위를 매기는 통합 추천 프레임워크를 구축했다.
대규모 모델-데이터셋 상호작용 벤치마크 구축
47,000개의 모델과 9,600개의 데이터셋에 걸친 162만 개의 평가 기록을 수집하여 대규모 모델 추천 연구를 위한 기반을 마련했다.
성능 인식 잠재 공간 학습
모델의 구조적 특성(크기, 아키텍처)과 데이터셋의 의미론적 설명을 결합하여 성능 기반의 공유 잠재 공간을 학습함으로써 미지의 모델과 데이터셋에 대응한다.
ID 드롭아웃 기반의 제로샷 일반화
학습 시 식별자 정보를 무작위로 제거하여 모델이 텍스트 설명과 메타데이터에 의존하게 함으로써, 새로 출시된 모델에 대해서도 즉각적인 추천이 가능하게 했다.
핵심 아이디어 이해하기
기존의 모델 선택 방식은 모델을 직접 실행하여 특징을 추출하거나(전이 가능성 추정), 고정된 소수의 모델 풀 내에서만 작동하는 한계가 있었다. ModelLens는 수많은 모델과 데이터셋이 얽혀 있는 공개 리더보드 기록이 그 자체로 모델의 능력을 나타내는 거대한 '지도'라는 점에 착안했다. 마치 영화 추천 시스템이 사용자들의 평점 패턴을 보고 취향을 파악하듯, 모델들이 다양한 데이터셋에서 보여준 성능 패턴을 분석하여 모델과 데이터셋 간의 관계를 학습한다.
이 과정에서 딥러닝의 임베딩 개념을 활용한다. 각 모델과 데이터셋을 단순한 이름이 아닌, 성능 데이터를 통해 학습된 벡터 공간상의 좌표로 변환한다. 이때 'Neural Scaling Law'와 같은 구조적 특성을 반영하는 Prior 항과, 특정 데이터셋과의 궁합을 나타내는 Interaction 항을 더해 최종 점수를 계산한다. 이는 모델의 체급에서 오는 기본 성능과 특정 작업에 대한 특화 성능을 동시에 고려하는 방식이다.
결과적으로 사용자가 새로운 데이터셋의 설명만 입력하면, ModelLens는 학습된 잠재 공간에서 해당 데이터셋과 가장 잘 어울리는 모델들을 순식간에 찾아낸다. 이는 수천 개의 후보 모델을 일일이 돌려보지 않고도, 과거의 방대한 상호작용 기록으로부터 추출된 지식을 통해 최적의 선택을 내릴 수 있게 함을 의미한다.
관련 Figure

왼쪽 그림은 4.7만 개의 모델과 9.6k 개의 데이터셋이 성능 상호작용을 기반으로 군집화된 모습을 보여준다. 오른쪽은 MMMU 데이터셋 근처에서 ModelLens가 추천한 Top-5 모델(Gemini, Qwen 등)이 단순 텍스트 유사도 기반 이웃보다 훨씬 성능 관련성이 높음을 입증한다.
학습된 모델-데이터셋 아틀라스(Atlas) 시각화와 MMMU 데이터셋에 대한 모델 추천 예시이다.
방법론
전체 시스템은 모델과 데이터셋의 메타데이터를 입력받아 상대적 성능 점수를 출력하는 랭킹 프레임워크로 설계됐다. 입력 데이터는 모델의 이름, 설명 텍스트, 아키텍처 패밀리, 파라미터 규모 등이며, 데이터셋은 이름과 설명 텍스트를 사용한다. 텍스트 정보는 고정된 텍스트 인코더를 통해 의미론적 임베딩으로 변환된다.
핵심 점수 계산은 두 부분의 합으로 구성된다. 첫째, Structural Prior는 모델의 크기와 아키텍처 정보만을 입력으로 받아 MLP를 거쳐 계산된다. [모델 크기 버킷 + 아키텍처 임베딩 → MLP 연산 → 스칼라 값] 순으로 계산되며, 이는 특정 데이터셋과 무관하게 모델이 가진 고유의 체급 성능을 의미한다. 둘째, Residual Interaction은 모델, 데이터셋, 작업 유형, 평가지표 임베딩을 모두 결합하여 계산된다. [모든 메타데이터 임베딩 결합 → MLP 백본 → 선형 레이어 → 스칼라 값] 순으로 연산되어, 특정 맥락에서의 세부적인 적합도를 산출한다.
학습을 위해 세 가지 손실 함수를 결합한 Multi-Objective Learning을 수행한다. Pairwise Loss는 두 모델 중 우수한 모델에 더 높은 점수를 주도록 학습하고, Listwise Loss는 전체 후보군의 순위 구조를 최적화하며, Pointwise Regression Loss는 실제 성능 수치의 절대적인 크기를 보정한다. 특히 학습 중 ID Dropout을 적용하여 모델이 특정 식별자를 암기하는 대신 메타데이터의 의미를 파악하도록 유도한다.
관련 Figure

Figure 1의 성능 기반 공간과 달리, 텍스트 유사도만으로는 작업 도메인들이 서로 뒤섞여 성능 중심의 구조적 조직화가 이루어지지 않음을 보여준다. 이는 성능 데이터 학습의 필요성을 강조한다.
텍스트 설명(Semantic)만을 사용했을 때의 모델-데이터셋 공간 시각화이다.
주요 결과
162만 개의 평가 기록을 담은 벤치마크에서 ModelLens는 메타데이터 기반의 기존 방식(ZAP, Task2Vec)과 모델 실행 기반의 방식들을 모두 압도했다. 특히 학습 데이터에 포함되지 않은 새로운 데이터셋(New Datasets) 설정에서 기존 방식들이 성능이 급락하는 것과 달리, ModelLens는 높은 순위 예측 정확도(Kendall’s weighted τ)를 유지하며 강력한 일반화 능력을 입증했다.
Ablation Study 결과, 리스트 기반 손실 함수(Listwise Loss)를 제거했을 때 성능 저하가 가장 컸으며, 이는 전체적인 순위 구조를 파악하는 것이 모델 추천의 핵심임을 시사한다. 또한 모델의 크기(Size)와 아키텍처(Family) 정보를 Prior로 활용하는 것이 성능 예측의 안정성을 높이는 데 크게 기여함을 확인했다.
실제 활용 사례로 5개의 질의응답(QA) 벤치마크에서 기존 라우팅 기법들과 결합했을 때, ModelLens가 추천한 모델 풀을 사용하면 성능이 최대 81%까지 향상됐다. 또한 최신 멀티모달 벤치마크인 RSVLM-QA 실험에서는 모델을 직접 실행하지 않고도 실제 성능 순위와 완벽하게 일치하는(τ=1.00) 결과를 보여주었다.
관련 Figure

모델 크기가 커질수록 성능이 향상되는 경향을 수치화하여 보여주며, Size Prior를 제거했을 때 예측 성능(Weighted Kendall τ)이 유의미하게 하락함을 통해 구조적 정보의 중요성을 증명한다.
모델 크기에 따른 성능 이점(Size Advantage)의 단조 증가 추세와 이에 대한 Ablation Study 결과이다.

모든 작업(이진 분류, 다중 레이블, 텍스트 생성)에서 ModelLens가 추천한 Top-1 모델이 기본 모델보다 높은 점수를 기록하여 실질적인 성능 향상을 입증한다.
NGQA 벤치마크의 세 가지 작업에서 ModelLens 추천 모델과 기본 모델(GPT-4o-mini)의 성능 비교이다.

예측 점수와 실제 성능 수치가 완벽한 상관관계(Kendall τ = 1.00)를 보이며, 특히 원래 벤치마크에 없던 모델들까지 정확한 위치에 예측해내는 일반화 성능을 보여준다.
RSVLM-QA 데이터셋에서 ModelLens 예측 점수와 실제 METEOR 점수 간의 상관관계 산점도이다.
기술 상세
ModelLens 아키텍처는 모델과 데이터셋을 공유 잠재 공간에 매핑하는 Inductive Matrix Completion 구조를 채택했다. 각 엔티티는 Identity(ID), Name, Description 임베딩의 결합으로 표현되며, ID Dropout 메커니즘을 통해 Cold-start 시나리오에서도 Semantic 정보를 활용해 추론이 가능하도록 설계됐다.
성능 예측 함수는 f(m, d, t, μ) = (s_residual + s_prior) / max(τ, ε) 형태로 정의된다. 여기서 s_prior는 모델의 구조적 속성(Scale, Architecture)에만 의존하여 Neural Scaling 효과를 캡처하고, s_residual은 데이터셋 특이적(Dataset-specific)인 편차를 모델링한다. 이러한 가산적 분해(Additive Decomposition)는 모델 선택의 근거를 '일반적 성능'과 '작업 특화 성능'으로 나누어 해석할 수 있게 한다.
학습 시에는 Plackett-Luce Likelihood 기반의 Listwise 랭킹 목적 함수를 사용하여 희소한 성능 행렬 내에서도 전역적인 순위 구조를 효과적으로 학습한다. 또한 보조적인 Pointwise Regression Head를 두어 서로 다른 평가지표(Accuracy, F1, MMLU 등)를 Z-score로 정규화한 값을 예측하게 함으로써 모델의 절대적인 성능 크기를 보정한다.
관련 Figure

정보 검색(IR)에서는 Qwen이, 질의응답(QA)에서는 OLMo가 강세를 보이는 등 작업에 따라 최적의 모델 가문이 다름을 보여준다. 이는 단순 크기뿐 아니라 아키텍처 특성이 추천에 필수적임을 나타낸다.
작업 도메인별로 서로 다른 모델 패밀리의 강점을 보여주는 차트이다.

모델 ID와 이름 정보가 예측에 가장 큰 기여를 하지만, 데이터셋 설명(Data Desp) 또한 중요한 역할을 함을 보여준다. 이는 메타데이터와 식별자 정보의 상호 보완적 관계를 입증한다.
각 피처(ID, 이름, 설명 등)를 하나씩 제거했을 때의 성능 하락 폭을 나타낸 차트이다.
한계점
공개 리더보드 데이터에 의존하므로 특정 인기 모델군이나 데이터셋에 대한 편향이 존재할 수 있다. 또한 리더보드 커버리지가 매우 낮은 희귀 도메인이나 멀티모달 작업의 경우 추천 정확도가 제한될 수 있으며, 주로 오픈소스 모델을 대상으로 하므로 폐쇄형 모델(Proprietary models)에 대한 정보는 부족할 수 있다.
실무 활용
개발자가 자신의 특정 데이터셋에 가장 적합한 오픈소스 모델을 찾고자 할 때, 비용이 많이 드는 벤치마크 실행 없이도 최적의 후보군을 즉시 선별할 수 있다.
- Hugging Face의 수만 개 모델 중 특정 도메인(의료, 법률 등) 데이터셋에 가장 성능이 좋을 모델 Top-K 추출
- 제한된 컴퓨팅 자원 내에서 최대 성능을 낼 수 있는 특정 크기(예: 7B 이하)의 모델 추천
- 모델 라우팅 시스템의 상류 단계에서 고품질의 후보 모델 풀을 동적으로 구성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.