이중 인코더
이미지와 텍스트를 각각 독립적인 신경망으로 처리하여 벡터 공간에 투영한 뒤 유사도를 계산하는 아키텍처로, CLIP이 대표적인 사례입니다.
CLIP 모델의 치명적 약점: 틀린 설명을 덧붙여도 유사도가 올라간다?