핵심 요약
AI 모델의 가중치가 동일하더라도 추론을 담당하는 인프라에 따라 실제 성능은 크게 달라질 수 있다. SambaNova는 DeepSeek-V3 모델을 사용하여 Berkeley Function Calling Leaderboard와 JSON Schema Bench에서 Fireworks 및 Together AI를 압도하는 결과를 기록했다. 특히 복잡한 멀티턴 대화와 정교한 JSON 구조 생성에서 최대 31%p의 정확도 차이를 보이며 기업용 에이전트 시스템 구축에 있어 인프라 선택의 중요성을 입증했다. 이는 인프라 수준의 최적화가 모델의 잠재력을 실질적인 비즈니스 가치로 전환하는 핵심 요소임을 시사한다.
배경
LLM 추론(Inference) 기초 지식, 함수 호출(Function Calling) 개념, JSON 스키마 구조에 대한 이해
대상 독자
기업용 AI 에이전트 개발자 및 인프라 아키텍트
의미 / 영향
모델 자체의 성능 경쟁을 넘어, 이제는 동일 모델을 얼마나 안정적이고 정확하게 서빙하느냐는 인프라 최적화 경쟁 단계로 진입했음을 시사한다. 이는 기업들이 AI 도입 시 모델 선택뿐만 아니라 추론 플랫폼의 기술적 깊이를 면밀히 검토해야 함을 의미한다.
섹션별 상세
이미지 분석

단순 호출, 다중 함수, 멀티턴 대화 세 가지 영역에서 SambaNova가 모든 경쟁사보다 높은 정확도를 기록하고 있음을 보여준다. 특히 멀티턴 대화에서 35% 대 4%라는 큰 격차를 시각적으로 증명하여 인프라 최적화의 중요성을 강조한다.
SambaNova, Fireworks, Together AI의 Berkeley Function Calling 벤치마크 결과 비교 차트

GitHub Easy/Medium, Snowplow, JSON Schema Store 전 영역에서 SambaNova가 가장 높은 커버리지를 달성했음을 나타낸다. Snowplow 카테고리에서 타사와의 성능 격차가 가장 두드러지게 나타나며 복잡한 스키마 처리 능력을 입증한다.
네 가지 JSON 스키마 카테고리에 대한 플랫폼별 구조화된 출력 생성 정확도 비교 차트

함수 호출 기술이 기업 자동화, 데이터 분석, 고객 서비스, 개발 도구에서 어떻게 외부 시스템과 JSON 데이터를 주고받으며 작동하는지 설명한다. 기술의 실질적 활용 사례를 시각화하여 독자의 이해를 돕는다.
AI 함수 호출이 적용되는 주요 산업 분야 인포그래픽
실무 Takeaway
- 동일한 오픈소스 모델을 사용하더라도 추론 서비스 제공업체(Inference Provider)에 따라 함수 호출 실패율이 수십 배까지 차이 날 수 있다.
- 멀티턴 대화나 복잡한 JSON 스키마가 포함된 에이전트 워크플로 설계 시 단순 모델 벤치마크보다 인프라 최적화 지표를 우선적으로 고려해야 한다.
- 높은 함수 호출 정확도는 토큰 소비와 재시도 횟수를 줄여 전체적인 운영 비용(TCO)을 낮추는 직접적인 요인이 된다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료