타우 벤치
AI 에이전트가 도구를 사용하고 복잡한 작업을 얼마나 일관성 있게 수행하는지 측정하는 성능 평가 벤치마크이다.
에이전트 성능 2배 향상: 파이썬 코드를 직접 짜서 스스로를 분석하는 재귀적 리플렉터