평가
LLM이나 AI 모델의 성능, 정확도, 안전성을 측정하기 위한 벤치마크나 테스트 프레임워크를 의미한다. 모델의 응답 품질을 정량화하여 프로덕션 배포 여부를 결정하는 근거가 된다.