멀티모달 거대언어모델
텍스트뿐만 아니라 이미지, 영상, 오디오 등 다양한 형태의 데이터를 동시에 이해하고 처리할 수 있는 인공지능 모델입니다. 영상의 시각적 정보와 오디오 정보를 결합하여 인간과 유사한 수준의 이해력을 발휘합니다.
5년의 기다림 끝에 1억 6천만 달러 투자 유치, 음성 AI 인프라의 정점 AssemblyAI