Kitchen Rush: 도구 사용 성능과 지연 시간을 동시에 평가하는 LLM 벤치마크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 도구 사용 벤치마크는 모델의 추론 지연 시간을 고려하지 않아 실시간 서비스 환경을 반영하지 못한다. Kitchen Rush는 Overcooked 스타일의 시뮬레이션 환경에서 모델이 요리 주문을 처리하는 과정을 통해 정확도와 속도를 동시에 평가한다. 모델의 추론 시간은 게임 내 시간으로 환산되어 주문 마감 기한에 직접적인 영향을 미친다. 지연 시간 예산(B)에 따라 모델별 순위가 달라지며, 이는 실시간 에이전트와 대화형 어시스턴트 환경에서 요구되는 모델의 특성이 다름을 보여준다.

대상 독자

실시간 LLM 에이전트 및 도구 사용 시스템을 개발하는 엔지니어

의미 / 영향

이 벤치마크는 LLM 평가 기준을 단순 정확도에서 실시간성으로 확장한다. 개발자는 모델 선택 시 서비스의 지연 시간 요구사항에 맞는 최적의 모델을 정량적으로 판단할 수 있게 된다.

섹션별 상세

기존 벤치마크는 모델이 정답을 도출할 때까지 무제한으로 기다리지만, 실시간 서비스에서는 추론 속도가 정확도만큼 중요하다.

Kitchen Rush는 모델이 요리사 역할을 수행하며 주문을 처리하는 시뮬레이션 환경을 제공하고, 추론에 소요된 시간을 게임 내 마감 기한에 반영한다.

1초 지연 시간 예산에서 Claude Sonnet 4.6과 GPT-5.4-mini가 요리 주문을 처리하는 모습. — Other지연 시간 예산이 1초로 제한된 환경에서 모델들이 실시간으로 도구를 호출하며 주문을 처리하는 과정을 보여준다. 빠른 응답이 필수적인 실시간 에이전트 환경을 시뮬레이션한다.

지연 시간 예산(B)을 1초(실시간)와 5초(대화형)로 구분하여 평가하며, 동일 모델이라도 예산에 따라 성능과 순위가 크게 변동된다.

B=1s 환경에서는 빠른 단일 단계 호출 모델이 유리하고, B=5s 환경에서는 추론 능력을 갖춘 모델이 더 높은 점수를 기록한다.

1초 지연 시간 예산(B=1s)에서의 모델별 Kitchen Rush 점수 리더보드. — Chart실시간 환경(B=1s)에서 모델들의 성능을 비교한다. 빠른 단일 단계 호출 모델들이 상위권을 차지하고 있음을 보여준다.

5초 지연 시간 예산(B=5s)에서의 모델별 Kitchen Rush 점수 리더보드. — Chart대화형 어시스턴트 환경(B=5s)에서 모델들의 성능을 비교한다. 추론 시간이 충분할 때 reasoning 모델들이 상위권으로 도약하는 것을 확인할 수 있다.

5초 지연 시간 예산에서 GPT-5.4-mini가 추론을 활용해 요리를 처리하는 모습. — Other지연 시간 예산이 5초로 늘어났을 때, 모델이 추론(reasoning)을 활용하여 더 효율적으로 주문을 처리하는 모습을 보여준다.

코드 예제

bash

pip install -e .
kitchenrush bench --baseline random --tier easy --seeds 12 --trials 2

Kitchen Rush 벤치마크를 설치하고 기본 랜덤 베이스라인으로 실행하는 명령어이다.

bash

kitchenrush bench --model anthropic:claude-sonnet-4-6 --tier medium --latency-budget 1

특정 모델(Claude Sonnet 4.6)을 사용하여 중간 난이도 티어에서 1초 지연 시간 예산으로 벤치마크를 실행하는 예시이다.

실무 Takeaway

실시간 음성 에이전트나 라이브 대시보드용 LLM을 선택할 때는 단순 정확도보다 특정 지연 시간 예산 내에서의 처리 능력을 우선해야 한다.
모델의 추론 비용과 속도 사이의 트레이드오프를 평가하려면 Kitchen Rush와 같이 지연 시간을 변수로 포함한 벤치마크를 활용해야 한다.

언급된 리소스

GitHubKitchen Rush GitHub Repository

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

대상 독자

실시간 LLM 에이전트 및 도구 사용 시스템을 개발하는 엔지니어

의미 / 영향

섹션별 상세

기존 벤치마크는 모델이 정답을 도출할 때까지 무제한으로 기다리지만, 실시간 서비스에서는 추론 속도가 정확도만큼 중요하다.

Kitchen Rush는 모델이 요리사 역할을 수행하며 주문을 처리하는 시뮬레이션 환경을 제공하고, 추론에 소요된 시간을 게임 내 마감 기한에 반영한다.

지연 시간 예산(B)을 1초(실시간)와 5초(대화형)로 구분하여 평가하며, 동일 모델이라도 예산에 따라 성능과 순위가 크게 변동된다.

B=1s 환경에서는 빠른 단일 단계 호출 모델이 유리하고, B=5s 환경에서는 추론 능력을 갖춘 모델이 더 높은 점수를 기록한다.

코드 예제

bash

pip install -e .
kitchenrush bench --baseline random --tier easy --seeds 12 --trials 2

Kitchen Rush 벤치마크를 설치하고 기본 랜덤 베이스라인으로 실행하는 명령어이다.

bash

kitchenrush bench --model anthropic:claude-sonnet-4-6 --tier medium --latency-budget 1

특정 모델(Claude Sonnet 4.6)을 사용하여 중간 난이도 티어에서 1초 지연 시간 예산으로 벤치마크를 실행하는 예시이다.

실무 Takeaway

실시간 음성 에이전트나 라이브 대시보드용 LLM을 선택할 때는 단순 정확도보다 특정 지연 시간 예산 내에서의 처리 능력을 우선해야 한다.
모델의 추론 비용과 속도 사이의 트레이드오프를 평가하려면 Kitchen Rush와 같이 지연 시간을 변수로 포함한 벤치마크를 활용해야 한다.

언급된 리소스

GitHubKitchen Rush GitHub Repository

Kitchen Rush: 도구 사용 성능과 지연 시간을 동시에 평가하는 LLM 벤치마크

핵심 요약

대상 독자

의미 / 영향

섹션별 상세

코드 예제

실무 Takeaway

언급된 리소스

Kitchen Rush: 도구 사용 성능과 지연 시간을 동시에 평가하는 LLM 벤치마크

핵심 요약

대상 독자

의미 / 영향

섹션별 상세

코드 예제

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드