멀티모달 추론
텍스트뿐만 아니라 이미지, 비디오, 오디오 등 다양한 형태의 데이터를 동시에 이해하고 이를 바탕으로 논리적 결론을 도출하는 능력이다. 화면 이해나 비디오 분석 벤치마크 점수는 이 능력의 수준을 나타낸다.