AA-옴니사이언스
법률, 의료, 경영 등 42개의 경제적으로 중요한 전문 분야를 대상으로 AI 모델의 지식 정확도와 환각 발생 여부를 측정하는 벤치마크이다. 모델이 정답을 모를 때 솔직하게 모른다고 답하는지, 아니면 잘못된 정보를 제공하는지를 엄격하게 평가한다.
GPT-5.2보다 뛰어난 오픈소스? 환각률 34% 기록한 GLM-5의 충격적 결과