멀티모달 에이전트
텍스트뿐만 아니라 이미지, 비디오, 오디오 등 다양한 형태의 데이터를 동시에 이해하고 처리하며, 외부 도구를 사용하여 복잡한 작업을 수행하는 AI 시스템이다.
최신 모델 Gemini-3-Pro도 정답률 27.3%에 그친 초고난도 멀티모달 벤치마크 AgentVista