시각-언어 정렬(vision-language-alignment)이란 무엇인가요?

Question

Accepted Answer

이미지나 비디오의 시각적 특징과 텍스트의 의미적 특징을 공통된 벡터 공간에서 일치시키는 학습 과정입니다. 이를 통해 모델은 시각적 정보를 언어로 설명하거나, 언어 지시사항에 따라 시각적 대상을 식별하고 조작할 수 있게 됩니다.

vision-language-alignment