멀티모달 대형 언어 모델
텍스트뿐만 아니라 이미지, 오디오 등 다양한 형태의 데이터를 동시에 처리하고 이해할 수 있는 인공지능 모델입니다. 시각 정보와 언어 정보를 통합하여 복잡한 맥락을 파악합니다.
GPT-5도 정답률 58%? 실생활 다중 이미지 추론 벤치마크 MMR-Life 등장