GSM-8K 벤치마크
초등학교 수준의 수학 문장제 문제 8,500개로 구성된 데이터셋이다. 모델의 다단계 추론 능력과 산술 연산 능력을 평가하는 표준 지표로 널리 사용되며, 에이전트 시스템의 논리적 정확도를 측정하는 데 필수적이다.