참조 접지
언어적 표현이 실제 영상이나 이미지 내의 어떤 구체적인 객체나 사건을 가리키는지 정확히 연결하는 기술이다. 멀티모달 모델이 텍스트와 시각 정보를 얼마나 일관되게 매핑하는지 평가하는 척도가 된다.