MiMo Claw의 1,000회 이상 툴 호출 주장과 장기 에이전트의 진짜 검증법

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Xiaomi의 MiMo Claw와 MiMo v2.5 Pro는 한 세션에서 1,000회가 넘는 연속 툴 호출, 토큰 사용 40~60% 절감, ClawEval의 pass cubed 약 63.8%라는 수치를 제시했으나, 작성자는 장기 에이전트의 실무적 판단 기준은 단순 호출 용량이나 단일 성공률이 아니라고 지적한다. 장기 체인은 추론 실패보다 상태 유지 실패가 더 흔하며, 중간 단계의 결정이나 툴 결과가 요약·압축 과정에서 사라져 이후 단계가 오래된 가정을 기반으로 진행하는 '컨텍스트 드리프트'가 문제의 핵심이다. 따라서 반복성 지표(pass cubed)와 토큰 효율이 함께 충족되어야만 높은 호출 수가 실사용에서 유효하다. 검증 방법으로 작성자는 실제 긴 체인을 재생해 각 호출에서 모델 종류·지연·툴 결과 크기·나중 단계와의 모순 여부를 로그하고, Zenmux 같은 라우팅 도구를 사용해 모델을 교체하며 '나중 호출이 앞선 호출과 모순을 만든 최초의 인덱스'를 측정할 것을 권장한다. 최종 정답이 아니라 이 첫 모순 지점이 실제 유효 컨텍스트 길이를 알려주므로, 장기 에이전트 성능 평가는 이 지표를 기준으로 설계되어야 한다.

주요 논점

01찬성다수

광고된 툴 호출 용량은 실질적 가치가 없을 수 있으므로 '첫 모순 지점'으로 실사용 컨텍스트 길이를 측정해야 한다는 주장이다.

02찬성다수

토큰 효율과 반복성(pass cubed)은 장기 체인에서 단발 성공보다 더 중요한 평가 기준이라는 주장이다.

합의점 vs 논쟁점

합의점

장기 에이전트 워크로드에서는 상태 유지(컨텍스트 드리프트) 문제가 성능을 좌우한다.
토큰 소비 절감은 동일 윈도우에서 더 많은 툴 호출을 수행하거나 비용을 낮추는 데 직접적으로 기여한다.
반복성(여러 회차에서의 일관된 성공)은 단일 성공 지표보다 더 신뢰할 수 있다.

논쟁점

벤더가 제시한 '1,000회 연속 툴 호출'이나 단일 벤치 점수가 실제 장기 작업에서 곧바로 적용되는지 여부

실용적 조언

장기 에이전트의 신뢰성을 평가할 때는 전체 출력 정답이 아니라 '나중 호출이 앞선 호출과 모순을 만든 첫 번째 단계'를 계측해 실제 유효 컨텍스트 길이를 측정하라.
모델 간 비교를 위해 체인 코드를 바꾸지 않고 라우팅으로 교체 가능한 Zenmux 같은 중간 레이어를 사용해 각 호출의 로그(모델, 지연, 툴 결과 크기)를 일관되게 수집하라.
토큰 효율 개선은 단순 비용 절감을 넘어서 동일 컨텍스트 예산으로 더 많은 스텝을 수행하게 하므로, 장기 체인 설계에서는 스텝당 표현을 경량화하는 최적화에 우선순위를 두라.

섹션별 상세

Xiaomi가 OpenClaw 기반 MiMo Claw와 MiMo v2.5 Pro로 한 세션에 1,000회가 넘는 연속 툴 호출을 지원하고 토큰 사용을 40~60% 절감하며 ClawEval의 pass cubed 점수가 약 63.8%라는 수치를 제시했는데, 이 수치는 제품의 원리(모델이 툴을 순차 호출하고 결과를 컨텍스트에 누적하는 흐름)와 함께 장기 에이전트 워크로드에서 '툴 호출 한도'를 가늠하는 표면적 근거로 작동한다. 작성자는 본인 업무 특성상 추론 벤치마크보다 툴 호출 수가 더 중요하다고 판단했고, 따라서 벤더가 제시한 정량값 자체가 실제 장기 상태 유지 능력을 보장하는지는 별도의 검증이 필요하다고 지적한다.

장기 체인은 대개 추론 능력으로 실패하지 않고 상태 유지로 실패한다는 문제가 제기됐다; 모델은 입력·요약·툴 결과를 컨텍스트에 누적하며 작동하므로, 두세백 회 정도의 호출 지점에서 초기 결정이나 40번째 단계의 툴 결과가 요약 과정에서 사라지거나 왜곡되어 이후 단계가 오래된 가정을 기반으로 계속 진행한다. 이런 드리프트는 '무엇이' 손실되는지(결정·툴 결과)와 '어떻게' 손실되는지(요약·토큰 압축에 따른 소실)를 동시에 설명하므로, 단순한 호출 용량 표기는 실제로 의미 있는 장기 작동을 보장하지 못한다.

ClawEval의 'pass cubed'와 토큰 효율성 주장은 단순 성공률보다 반복 가능성과 비용·컨텍스트 소비 면에서 중요하다고 평가됐다; pass cubed는 같은 시나리오를 여러 번 반복해 일관된 성공을 요구하므로 단발 성공을 걸러내고, 토큰을 40~60% 줄인다는 주장은 동일 컨텍스트 윈도우 안에서 더 많은 단계(툴 호출)를 수행하거나 예산을 줄이는 방식으로 실무적 가치를 만든다. 따라서 반복성 기준과 토큰 효율이 모두 충족되어야만 '1,000회'라는 수치가 실사용에 적용 가능하다.

작성자는 검증 절차로 실제 장기 체인을 재생(replay)하면서 각 스텝을 로그하는 방법을 제안했다; 각 툴 호출에 대해 모델 종류·지연·툴 결과 크기·나중 단계와의 모순 여부를 기록하고, 모델을 교체할 때는 Zenmux를 경유해 체인 코드를 다시 쓰지 않고 라우팅만 바꾼다고 구체화했다. 그 결과물에서 최종 정답 대신 '나중 호출이 앞선 호출과 모순을 만든 첫 번째 인덱스'를 측정하면 실제로 유지되는 작동 컨텍스트 길이를 알 수 있고, 이 값이 광고된 컨텍스트나 윈도우와 실질적으로 일치하는지를 판단할 수 있다.

실무 Takeaway

벤더가 제시한 '연속 툴 호출' 수치는 상태 유지 능력과 반복성 없이는 의미가 없으므로 실사용 검증 시에는 호출 성공률이 아니라 '첫 모순 지점'을 측정해 실제 작동 길이를 판단해야 한다.
토큰 효율은 비용 절감뿐 아니라 동일 컨텍스트 윈도우에서 더 많은 단계(툴 호출)를 수행할 수 있게 하므로, 장기 체인 설계에서는 각 스텝의 토큰 소비를 줄이는 것이 작업 지속성에 직접 기여한다.
반복성 기준(pass cubed 등)을 포함한 벤치마크가 단일 성공률보다 장기 워크로드에 더 유의미하므로, 실험은 여러 회차 반복과 로그 기반 모순 검사로 설계해야 한다.

언급된 도구

MiMo Claw중립

OpenClaw 기반의 에이전트/툴 오케스트레이션 제품(벤더의 연속 툴 호출·토큰 효율 주장 출처)

OpenClaw중립

MiMo Claw가 기반으로 삼는 프레임워크/플랫폼

MiMo v2.5 Pro중립

MiMo Claw에서 사용된 것으로 언급된 모델(연속 툴 호출을 처리하는 LLM 역할)

Zenmux추천

체인 코드를 수정하지 않고 모델 라우팅·로깅을 가능하게 해 벤치마크 재현성과 비교를 돕는 개발 도구