metr-benchmark
AI 모델이 복잡하고 장기적인 작업을 자율적으로 수행할 수 있는 능력을 측정하기 위한 평가 기준이다. 단순한 질의응답 성능을 넘어 실제 환경에서 도구를 사용하고 문제를 해결하는 에이전트의 역량을 검증하는 데 초점을 맞춘다.
AI 모델이 복잡하고 장기적인 작업을 자율적으로 수행할 수 있는 능력을 측정하기 위한 평가 기준이다. 단순한 질의응답 성능을 넘어 실제 환경에서 도구를 사용하고 문제를 해결하는 에이전트의 역량을 검증하는 데 초점을 맞춘다.