평가 스위트
LLM의 응답 품질을 정량적으로 측정하기 위한 테스트 데이터와 지표의 집합이다. 단순한 프롬프트 테스트를 넘어 다양한 에지 케이스와 사용자 시나리오에서 모델의 성능을 일관되게 검증하여 프로덕션 환경의 신뢰성을 확보하는 역할을 한다.