TL;DR
Xiaomi의 MiMo Claw와 MiMo v2.5 Pro는 한 세션에서 1,000회가 넘는 연속 툴 호출, 토큰 사용 40~60% 절감, ClawEval의 pass cubed 약 63.8%라는 수치를 제시했으나, 작성자는 장기 에이전트의 실무적 판단 기준은 단순 호출 용량이나 단일 성공률이 아니라고 지적한다. 장기 체인은 추론 실패보다 상태 유지 실패가 더 흔하며, 중간 단계의 결정이나 툴 결과가 요약·압축 과정에서 사라져 이후 단계가 오래된 가정을 기반으로 진행하는 '컨텍스트 드리프트'가 문제의 핵심이다. 따라서 반복성 지표(pass cubed)와 토큰 효율이 함께 충족되어야만 높은 호출 수가 실사용에서 유효하다. 검증 방법으로 작성자는 실제 긴 체인을 재생해 각 호출에서 모델 종류·지연·툴 결과 크기·나중 단계와의 모순 여부를 로그하고, Zenmux 같은 라우팅 도구를 사용해 모델을 교체하며 '나중 호출이 앞선 호출과 모순을 만든 최초의 인덱스'를 측정할 것을 권장한다. 최종 정답이 아니라 이 첫 모순 지점이 실제 유효 컨텍스트 길이를 알려주므로, 장기 에이전트 성능 평가는 이 지표를 기준으로 설계되어야 한다.
주요 논점
광고된 툴 호출 용량은 실질적 가치가 없을 수 있으므로 '첫 모순 지점'으로 실사용 컨텍스트 길이를 측정해야 한다는 주장이다.
토큰 효율과 반복성(pass cubed)은 장기 체인에서 단발 성공보다 더 중요한 평가 기준이라는 주장이다.
합의점 vs 논쟁점
합의점
- 장기 에이전트 워크로드에서는 상태 유지(컨텍스트 드리프트) 문제가 성능을 좌우한다.
- 토큰 소비 절감은 동일 윈도우에서 더 많은 툴 호출을 수행하거나 비용을 낮추는 데 직접적으로 기여한다.
- 반복성(여러 회차에서의 일관된 성공)은 단일 성공 지표보다 더 신뢰할 수 있다.
논쟁점
- 벤더가 제시한 '1,000회 연속 툴 호출'이나 단일 벤치 점수가 실제 장기 작업에서 곧바로 적용되는지 여부
실용적 조언
- 장기 에이전트의 신뢰성을 평가할 때는 전체 출력 정답이 아니라 '나중 호출이 앞선 호출과 모순을 만든 첫 번째 단계'를 계측해 실제 유효 컨텍스트 길이를 측정하라.
- 모델 간 비교를 위해 체인 코드를 바꾸지 않고 라우팅으로 교체 가능한 Zenmux 같은 중간 레이어를 사용해 각 호출의 로그(모델, 지연, 툴 결과 크기)를 일관되게 수집하라.
- 토큰 효율 개선은 단순 비용 절감을 넘어서 동일 컨텍스트 예산으로 더 많은 스텝을 수행하게 하므로, 장기 체인 설계에서는 스텝당 표현을 경량화하는 최적화에 우선순위를 두라.
섹션별 상세
실무 Takeaway
- 벤더가 제시한 '연속 툴 호출' 수치는 상태 유지 능력과 반복성 없이는 의미가 없으므로 실사용 검증 시에는 호출 성공률이 아니라 '첫 모순 지점'을 측정해 실제 작동 길이를 판단해야 한다.
- 토큰 효율은 비용 절감뿐 아니라 동일 컨텍스트 윈도우에서 더 많은 단계(툴 호출)를 수행할 수 있게 하므로, 장기 체인 설계에서는 각 스텝의 토큰 소비를 줄이는 것이 작업 지속성에 직접 기여한다.
- 반복성 기준(pass cubed 등)을 포함한 벤치마크가 단일 성공률보다 장기 워크로드에 더 유의미하므로, 실험은 여러 회차 반복과 로그 기반 모순 검사로 설계해야 한다.
언급된 도구
OpenClaw 기반의 에이전트/툴 오케스트레이션 제품(벤더의 연속 툴 호출·토큰 효율 주장 출처)
MiMo Claw가 기반으로 삼는 프레임워크/플랫폼
MiMo Claw에서 사용된 것으로 언급된 모델(연속 툴 호출을 처리하는 LLM 역할)
체인 코드를 수정하지 않고 모델 라우팅·로깅을 가능하게 해 벤치마크 재현성과 비교를 돕는 개발 도구
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.