GSM-심볼릭
기존 수학 벤치마크인 GSM8K를 변형하여 모델의 실제 논리력을 측정하는 평가 체계이다. 문제의 숫자나 이름 같은 기호적 요소만 바꾸어 모델이 문제의 논리 구조를 이해하는지, 아니면 단순히 학습된 패턴을 복제하는지를 엄격하게 테스트한다.
더 크게 만들어도 소용없다? AGI를 가로막는 5가지 기술적 한계