옴니모달 대형 언어 모델
텍스트, 이미지, 오디오 등 다양한 형태의 데이터를 별도의 파이프라인 없이 하나의 통합된 표현 공간에서 동시에 처리하는 모델이다. 기존의 시각-언어 모델(VLM)보다 더 유연한 멀티모달 추론이 가능하며 인간과 유사한 자연스러운 상호작용을 지원한다.