시각-언어 정렬
이미지나 비디오의 시각적 특징과 텍스트의 의미적 특징을 공통된 벡터 공간에서 일치시키는 학습 과정입니다. 이를 통해 모델은 시각적 정보를 언어로 설명하거나, 언어 지시사항에 따라 시각적 대상을 식별하고 조작할 수 있게 됩니다.