multimodal-alignment
텍스트, 이미지, 오디오 등 서로 다른 형태의 데이터를 공통된 의미 공간에서 연결하는 기술이다. 복합적인 감각 정보를 통합 처리하는 AI 구축에 핵심적인 역할을 한다.
얀 르쿤도 역설하는 '목적 지향 AI', 이미 깃허브에 구현되어 있었다?