시각적 추론
이미지나 비디오에 포함된 시각적 정보를 바탕으로 논리적 관계를 파악하거나 문제를 해결하는 능력으로, 단순한 객체 인식을 넘어선 고차원적 사고를 포함한다.
최신 모델 Gemini-3-Pro도 정답률 27.3%에 그친 초고난도 멀티모달 벤치마크 AgentVista