humanitys-last-exam
인간 전문가 수준의 지식을 요구하는 매우 난이도 높은 AI 평가 데이터셋이다. LLM의 한계를 시험하고 범용 인공지능(AGI)에 얼마나 근접했는지 판단하는 척도로 쓰인다.
2030년 AI 시장의 91%는 기업용, 소비자용 AI의 승부처는 추론 능력
제미나이 3.1 프로 등장, 지식 노동 에이전트 성능 1위 등극
구글 제미나이 3.1 프로 출시, 벤치마크 신기록 달성
구글, 인간 전문가도 놓친 논리적 오류 찾아내는 Gemini 3 Deep Think 공개
인간 전문가도 놓친 논리 오류 발견, 제미나이 3 딥 씽크의 진화