동일 모델, 다른 플랫폼: 함수 호출 벤치마크가 밝힌 성능 차이

핵심 요약

AI 모델의 가중치가 동일하더라도 추론을 담당하는 인프라에 따라 실제 성능은 크게 달라질 수 있다. SambaNova는 DeepSeek-V3 모델을 사용하여 Berkeley Function Calling Leaderboard와 JSON Schema Bench에서 Fireworks 및 Together AI를 압도하는 결과를 기록했다. 특히 복잡한 멀티턴 대화와 정교한 JSON 구조 생성에서 최대 31%p의 정확도 차이를 보이며 기업용 에이전트 시스템 구축에 있어 인프라 선택의 중요성을 입증했다. 이는 인프라 수준의 최적화가 모델의 잠재력을 실질적인 비즈니스 가치로 전환하는 핵심 요소임을 시사한다.

배경

LLM 추론(Inference) 기초 지식, 함수 호출(Function Calling) 개념, JSON 스키마 구조에 대한 이해

대상 독자

기업용 AI 에이전트 개발자 및 인프라 아키텍트

의미 / 영향

모델 자체의 성능 경쟁을 넘어, 이제는 동일 모델을 얼마나 안정적이고 정확하게 서빙하느냐는 인프라 최적화 경쟁 단계로 진입했음을 시사한다. 이는 기업들이 AI 도입 시 모델 선택뿐만 아니라 추론 플랫폼의 기술적 깊이를 면밀히 검토해야 함을 의미한다.

섹션별 상세

인프라 차이가 모델의 실질적 성능을 결정한다. 모델 가중치가 같아도 추론 스택, 메모리 관리, 안정성 등 인프라 수준의 차이가 함수 호출 정확도에 직접적인 영향을 미친다. 90%의 정확도는 10번 중 1번의 실패를 의미하므로, 프로덕션 환경에서는 작은 수치 차이가 시스템 신뢰도와 운영 비용에 막대한 차이를 만든다.

Berkeley Function Calling Leaderboard에서 SambaNova가 독보적인 성적을 거두었다. DeepSeek-V3를 활용한 테스트에서 SambaNova는 단순 호출 98%, 다중 함수 선택 95% 등 모든 지표에서 1위를 기록했다. 특히 가장 난도가 높은 멀티턴 대화 시나리오에서 SambaNova는 35%의 정확도를 기록하여, 4%에 그친 Together AI 대비 31%p라는 압도적인 격차를 보였다.

JSON Schema Bench를 통해 구조화된 출력 생성 능력을 검증했다. 함수 호출의 핵심인 정확한 JSON 형식 생성 능력에서도 SambaNova는 GitHub Easy/Medium, Snowplow, JSON Schema Store 등 모든 카테고리에서 선두를 차지했다. 복잡한 데이터 시각화 스키마인 Snowplow 테스트에서 SambaNova는 86%의 커버리지를 달성하며 타사 대비 최소 5%p에서 최대 65%p 높은 성능을 나타냈다.

에이전트 AI 시대를 위한 함수 호출 기술의 가치가 증대되고 있다. 함수 호출은 자연어 추론을 실제 도구 실행으로 연결하는 가교 역할을 하며, 기업용 자동화, 데이터 분석, 고객 서비스 등 핵심 분야의 필수 기능이다. 높은 정확도는 재시도 로직 감소, 운영 비용 절감, 개발 주기 단축으로 이어져 비즈니스 경쟁력을 강화한다.

이미지 분석

Chart
단순 호출, 다중 함수, 멀티턴 대화 세 가지 영역에서 SambaNova가 모든 경쟁사보다 높은 정확도를 기록하고 있음을 보여준다. 특히 멀티턴 대화에서 35% 대 4%라는 큰 격차를 시각적으로 증명하여 인프라 최적화의 중요성을 강조한다.
SambaNova, Fireworks, Together AI의 Berkeley Function Calling 벤치마크 결과 비교 차트

Chart
GitHub Easy/Medium, Snowplow, JSON Schema Store 전 영역에서 SambaNova가 가장 높은 커버리지를 달성했음을 나타낸다. Snowplow 카테고리에서 타사와의 성능 격차가 가장 두드러지게 나타나며 복잡한 스키마 처리 능력을 입증한다.
네 가지 JSON 스키마 카테고리에 대한 플랫폼별 구조화된 출력 생성 정확도 비교 차트

Infographic
함수 호출 기술이 기업 자동화, 데이터 분석, 고객 서비스, 개발 도구에서 어떻게 외부 시스템과 JSON 데이터를 주고받으며 작동하는지 설명한다. 기술의 실질적 활용 사례를 시각화하여 독자의 이해를 돕는다.
AI 함수 호출이 적용되는 주요 산업 분야 인포그래픽

실무 Takeaway

동일한 오픈소스 모델을 사용하더라도 추론 서비스 제공업체(Inference Provider)에 따라 함수 호출 실패율이 수십 배까지 차이 날 수 있다.
멀티턴 대화나 복잡한 JSON 스키마가 포함된 에이전트 워크플로 설계 시 단순 모델 벤치마크보다 인프라 최적화 지표를 우선적으로 고려해야 한다.
높은 함수 호출 정확도는 토큰 소비와 재시도 횟수를 줄여 전체적인 운영 비용(TCO)을 낮추는 직접적인 요인이 된다.

언급된 리소스

문서Berkeley Function Calling Leaderboard