벤치마크
AI 모델이나 시스템의 성능을 측정하기 위해 설계된 표준화된 테스트 또는 데이터셋이다. 이 글에서는 에이전트 기술 평가의 정확도를 비교하기 위한 도구로 사용되어 객관적인 품질 지표를 제공한다.