옴니모달 대형 언어 모델
텍스트, 이미지, 비디오뿐만 아니라 오디오 신호까지 동시에 입력받아 통합적으로 이해하고 생성할 수 있는 인공지능 모델이다. 여러 감각 정보를 하나의 신경망에서 처리하여 인간과 유사한 다중 감각 인지 능력을 구현하는 것이 핵심이다.