평가 스위트
AI 모델이나 시스템의 성능을 측정하기 위해 준비된 테스트 데이터와 지표의 집합이다. 실제 운영 환경의 복잡성을 충분히 반영하지 못한 평가 스위트는 높은 점수를 기록하더라도 실무에서 실패할 수 있으므로, 모호한 사례를 포함한 정교한 구성이 필수적이다.