시각적 지시어 튜닝
이미지와 그에 대응하는 텍스트 지시문을 쌍으로 학습시켜 모델이 시각적 정보를 이해하고 언어로 추론할 수 있게 만드는 과정이다. 이를 통해 모델은 단순한 이미지 분류를 넘어 복잡한 시각적 상황에 대한 질의응답이 가능해진다.