개방형 어휘 그라운딩
사전에 정의되지 않은 임의의 텍스트 설명을 바탕으로 이미지 내 해당 객체의 위치를 찾아내는 기술이다. 특정 클래스에 국한되지 않고 자연어 프롬프트를 통해 시각적 대상을 식별할 수 있게 한다. 시각적 이해와 언어적 맥락의 고도화된 정렬이 필수적이다.