appworld
450개 이상의 API와 수백 개의 실제 작업을 포함하여 AI 에이전트의 실무 능력을 평가하는 고난도 벤치마크 데이터셋이다. 실제 환경에서의 도구 활용 능력과 문제 해결 과정을 검증한다.
IBM이 공개한 CUGA: 복잡한 워크플로우를 해결하는 오픈소스 에이전트