언어 모델 평가 프레임워크
다양한 벤치마크 데이터셋을 사용하여 언어 모델의 성능을 표준화된 방식으로 측정하는 도구이다. MMLU, GSM8K 등 수백 개의 평가 태스크를 지원하여 모델 간의 객관적인 비교를 돕는다.