메드헬름
Stanford 대학교에서 개발한 의료 작업 평가 프레임워크이다. 다양한 의료 관련 태스크에서 AI 모델의 성능을 종합적으로 평가하며, 현재 GPT-5가 가장 높은 점수를 기록하고 있다.