클립
이미지와 텍스트를 동일한 벡터 공간에 매핑하여 상호 비교를 가능하게 하는 모델이다. 이미지의 시각적 특징을 텍스트로 이해하거나 그 반대의 작업을 수행하는 데 핵심적인 역할을 한다.