핵심 요약
기존 도구 사용 벤치마크는 모델의 추론 지연 시간을 고려하지 않아 실시간 서비스 환경을 반영하지 못한다. Kitchen Rush는 Overcooked 스타일의 시뮬레이션 환경에서 모델이 요리 주문을 처리하는 과정을 통해 정확도와 속도를 동시에 평가한다. 모델의 추론 시간은 게임 내 시간으로 환산되어 주문 마감 기한에 직접적인 영향을 미친다. 지연 시간 예산(B)에 따라 모델별 순위가 달라지며, 이는 실시간 에이전트와 대화형 어시스턴트 환경에서 요구되는 모델의 특성이 다름을 보여준다.
대상 독자
실시간 LLM 에이전트 및 도구 사용 시스템을 개발하는 엔지니어
의미 / 영향
이 벤치마크는 LLM 평가 기준을 단순 정확도에서 실시간성으로 확장한다. 개발자는 모델 선택 시 서비스의 지연 시간 요구사항에 맞는 최적의 모델을 정량적으로 판단할 수 있게 된다.
섹션별 상세




코드 예제
pip install -e .
kitchenrush bench --baseline random --tier easy --seeds 12 --trials 2Kitchen Rush 벤치마크를 설치하고 기본 랜덤 베이스라인으로 실행하는 명령어이다.
kitchenrush bench --model anthropic:claude-sonnet-4-6 --tier medium --latency-budget 1특정 모델(Claude Sonnet 4.6)을 사용하여 중간 난이도 티어에서 1초 지연 시간 예산으로 벤치마크를 실행하는 예시이다.
실무 Takeaway
- 실시간 음성 에이전트나 라이브 대시보드용 LLM을 선택할 때는 단순 정확도보다 특정 지연 시간 예산 내에서의 처리 능력을 우선해야 한다.
- 모델의 추론 비용과 속도 사이의 트레이드오프를 평가하려면 Kitchen Rush와 같이 지연 시간을 변수로 포함한 벤치마크를 활용해야 한다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.