인류의 마지막 시험
인간 전문가 수준의 지식을 요구하는 매우 난이도 높은 AI 평가 데이터셋이다. LLM의 한계를 시험하고 범용 인공지능(AGI)에 얼마나 근접했는지 판단하는 척도로 쓰인다.