핵심 요약
기존 AI 벤치마크인 MMLU를 최신 모델들이 손쉽게 통과함에 따라 AI의 진정한 전문 지식 수준을 측정하기 위한 새로운 평가 체계가 필요해졌다. 전 세계 1,000여 명의 전문가가 협력하여 수학, 인문학, 자연과학 등 고도로 전문화된 분야를 아우르는 2,500개 문항의 '인류의 마지막 시험(HLE)'을 개발했다. 이 시험은 현재 AI가 풀 수 있는 문제를 모두 배제하도록 설계되었으며 평가 결과 GPT-4o와 Claude 3.5 Sonnet 등 주요 모델들이 한 자릿수 정답률을 기록하며 큰 성능 격차를 보였다. 이번 연구는 AI가 단순한 패턴 인식을 넘어 깊이 있는 맥락과 전문성을 갖추었는지 검증하는 중요한 이정표가 될 것이다.
배경
LLM의 기본 작동 원리, 기존 AI 벤치마크(MMLU 등)에 대한 이해
대상 독자
AI 모델 평가 연구자, LLM 개발자, AI 정책 입안자
의미 / 영향
AI의 한계를 명확히 규명함으로써 모델 개발의 새로운 목표를 제시하고, AI의 능력을 과대평가하여 발생할 수 있는 사회적 위험을 방지하는 데 기여할 것이다.
섹션별 상세
MMLU와 같은 기존 학술 벤치마크에서 최신 AI 모델들이 만점에 가까운 점수를 기록하며 변별력을 상실하자 텍사스 A&M 대학교를 포함한 전 세계 연구진이 더 까다로운 평가 도구인 '인류의 마지막 시험(HLE)'을 구축했다.
2,500개의 문항은 고대 팔미라 비문 번역이나 조류의 미세 해부학적 구조 식별 등 고도로 전문화된 주제를 다루며 인터넷 검색으로 쉽게 답을 찾을 수 없도록 설계되었다. 특히 현재 AI 모델이 정답을 맞힌 문항은 최종 시험지에서 즉시 삭제하는 방식을 통해 AI의 현재 능력을 상회하는 난이도를 유지했다.
초기 테스트 결과 GPT-4o는 2.7%, Claude 3.5 Sonnet은 4.1%라는 매우 낮은 정답률을 기록했으며 추론 능력이 강화된 OpenAI의 o1 모델조차 8%에 그쳤다. 가장 우수한 성능을 보인 Gemini 3.1 Pro와 Claude Opus 4.6도 40~50% 수준의 정확도에 머물러 인간 전문가와의 격차를 증명했다.
연구팀은 AI 모델이 정답을 단순히 암기하는 것을 방지하기 위해 일부 문항만 공개하고 대다수는 비공개로 유지하는 전략을 취했다. 이는 HLE가 향후 AI 발전 속도에 맞춰 장기적으로 신뢰할 수 있는 평가 지표로 기능하게 하기 위함이다.
실무 Takeaway
- 단순 패턴 인식 기반의 AI 모델은 고도의 전문 지식과 맥락 이해가 필요한 영역에서 여전히 인간 전문가에 비해 현저히 낮은 성능을 보인다.
- AI 모델의 실제 역량을 정확히 파악하기 위해서는 기존의 범용 벤치마크를 넘어 현재 기술 수준을 상회하도록 설계된 적대적 벤치마킹 기법이 필수적이다.
- AI의 높은 벤치마크 점수가 반드시 실제 지능이나 전문성을 의미하지 않으므로 정책 입안자와 개발자는 평가 도구의 한계를 인지하고 신중하게 기술을 도입해야 한다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료