TL;DR
ModelFit은 특정 코드베이스에서 자동으로 생성한 프로브와 명시적 루브릭을 이용해 후보 LLM의 정답률을 우선으로 비교하는 오픈소스 도구이다. 프로브는 대상 리포지토리의 실제 코드·패턴에서 유도되며 채점자는 모델명을 보지 못한 상태로 응답을 검증하기 때문에 평균 벤치마크와는 다른 실무 중심 비교가 가능하다.
실행 파이프라인은 각 프로브를 후보 모델에 전송해 시도와 응답을 기록하고, 판정자에게 과제와 루브릭과 응답을 전달해 JSON 형식의 엄격한 평결을 수집한 뒤 리포트에서 합격률·품질·비용을 종합해 순위를 매긴다. 비용은 공급자 토큰 사용량이 제공되는 경우 추적되며 누락 시 NA로 표기되고, 샘플 수를 늘리면 런 간 분산을 줄일 수 있다.
블라인드 채점은 모델 식별 편향을 낮추지만 스타일 편향과 프롬프트 인젝션 위험은 남아 있고, 판정자가 코드를 실제로 실행하지 않으면 컴파일 의존성으로 인한 실패 모드를 놓칠 수 있다. 따라서 민감한 데이터는 .env 등으로 관리하고 가격·샘플링 설정을 검증해야 하며 결과 해석 시 통계적 신뢰도와 실행 커버리지를 함께 고려해야 한다.
섹션별 상세

for p in probes/*.md; do
n=$(basename "$p" .md)
./bin/modelfit run "$n" all --samples 1
./bin/modelfit judge "$n" all
done
./bin/modelfit reportprobes 디렉토리의 각 프로브를 순회하며 run 명령으로 후보 모델에 프롬프트를 보내고 judge 명령으로 블라인드 루브릭 채점을 실행한 뒤 최종적으로 report를 생성하는 배치 실행 예시이다.
./bin/modelfit run example-chunk fake-model-key --samples 1
./bin/modelfit judge example-chunk fake-model-key
./bin/modelfit report단일 프로브에 대해 후보 모델과 판정자를 스모크 테스트하는 순서로, 샘플 수를 지정해 반복 변동성을 확인할 수 있는 기본 사용 예시이다.
실무 Takeaway
- 실제 코드베이스에서 생성한 프로브를 쓰면 평균 벤치마크가 놓치는 리포지토리 특화 오류 모드를 직접 측정해 모델 선택의 실효성을 높일 수 있다.
- 블라인드 루브릭 채점은 모델 식별 편향을 줄여 정확도를 우선 비교하게 하지만 스타일 편향과 프롬프트 인젝션 위험이 남아 있으며 코드 실행이 필요한 경우 실행형 게이트를 추가해야 한다.
- 리포트는 합격률·품질·비용을 함께 제시하므로 공급자 토큰 사용량이 제공될 때만 비용 비교가 정확하며 샘플 수를 늘려 통계적 신뢰도를 확보해야 한다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.