멀티모달 정렬
텍스트, 이미지, 오디오 등 서로 다른 형태의 데이터를 공통된 의미 공간에서 연결하는 기술이다. 복합적인 감각 정보를 통합 처리하는 AI 구축에 핵심적인 역할을 한다.