시각-언어 사전학습
이미지와 텍스트 데이터를 동시에 사용하여 두 모달리티 간의 관계를 모델이 스스로 학습하게 하는 과정이다. 이를 통해 모델은 이미지의 내용을 텍스트로 이해하거나 텍스트 설명을 바탕으로 이미지를 분석하는 능력을 갖추게 된다.