대규모 다중작업 언어 이해
언어 모델의 지식과 문제 해결 능력을 측정하기 위해 57개의 다양한 주제를 다루는 벤치마크이다. 모델의 전반적인 지능 수준을 평가하는 표준 지표로 활용된다.