핵심 요약
BFCL v4 벤치마크 결과 Qwen 3.5-Flash가 병렬 도구 호출 강점을 바탕으로 종합 1위를 차지했으며 Gemini 3.1 Lite는 하위권에 머물렀다.
배경
Gemini 3.1 Lite 프리뷰의 도구 호출 성능을 검증하기 위해 BFCL v4 라이브 스위트를 사용하여 5개 주요 LLM의 성능을 비교 분석했다.
의미 / 영향
도구 호출 성능 평가에서 단순 호출과 병렬 호출의 성능 결과가 상이하게 나타났다. 이는 에이전트 개발 시 모델의 범용 지능보다 특정 호출 패턴에 대한 최적화 상태를 우선 검증해야 함을 의미한다.
합의점 vs 논쟁점
합의점
- 단순 호출 벤치마크만으로는 모델의 실제 도구 호출 능력을 완전히 평가할 수 없다.
- Qwen 3.5-Flash는 병렬 도구 호출에서 현재 가장 뛰어난 성능을 보여준다.
논쟁점
- Gemini 3.1 Lite의 성능이 기대보다 낮게 측정된 점에 대한 원인 분석이 필요하다.
실용적 조언
- 병렬 도구 호출이 잦은 에이전트를 구축한다면 Qwen 3.5-Flash를 우선적으로 고려해야 한다.
- 단순 성능 지표에 의존하지 말고 실제 워크로드와 일치하는 병렬 및 순차 호출 벤치마크 데이터를 확인해야 한다.
언급된 도구
Neo추천
LLM 벤치마크 실행 및 분석 도구
BFCL v4추천
버클리 함수 호출 성능 평가 데이터셋
섹션별 상세
Qwen 3.5-Flash-02-23 모델이 종합 점수 81.76%로 전체 1위를 차지했다. 특히 병렬 도구 호출(live_parallel) 카테고리에서 93.75%라는 압도적인 점수를 기록하며 복잡한 워크로드에서의 강점을 증명했다. 이는 대규모 언어 모델이 단순히 텍스트를 생성하는 수준을 넘어 정교한 외부 도구 조작 능력을 갖추었음을 보여주는 지표이다.
Kimi-K2.5 모델은 단순 도구 호출(live_simple)에서 84.50%로 선두를 달렸으나 다중·병렬 호출 및 무관성 탐지 항목이 포함되자 종합 순위가 2위로 밀려났다. 단순 성능 지표가 실제 복잡한 사용 환경을 대변하지 못한다는 사실이 이번 벤치마크를 통해 명확히 드러났다. 모델의 안정성은 단순 호출보다 예외 상황과 복합 호출 처리 능력에서 결정된다.
Gemini 3.1 Flash Lite는 종합 점수 72.47%로 테스트된 5개 모델 중 최하위를 기록했다. 구글의 최신 경량 모델임에도 불구하고 도구 호출의 정확도와 복잡한 시나리오 대응력에서 경쟁사 모델들에 비해 뒤처지는 모습을 보였다. 이는 특정 작업에 최적화된 모델 선택이 전체 시스템 성능에 얼마나 큰 영향을 미치는지 시사한다.
실무 Takeaway
- Qwen 3.5-Flash가 종합 81.76%로 도구 호출 성능 1위를 기록했으며 특히 병렬 호출에서 93.75%의 높은 성과를 냈다.
- 단순 호출 성능이 높은 모델이 반드시 복잡한 병렬 또는 다중 호출에서도 우수한 것은 아니라는 점이 확인됐다.
- Gemini 3.1 Flash Lite는 72.47%의 점수로 기대에 미치지 못하는 도구 호출 성능을 보이며 최하위를 기록했다.
- 실제 애플리케이션 개발 시 단순 벤치마크 점수보다 병렬 처리 및 무관성 탐지 능력을 별도로 확인해야 한다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료