NL-Refer
NL-Refer는 VideoRefer 데이터셋의 각 객체를 자연어로 명시적으로 지칭하는 referring 표현을 포함하도록 정제된 데이터셋으로, ground-truth 마스크와 텍스트의 명시적 매핑을 제공한다. 이를 통해 텍스트의 객체 명사와 시각 영역 간의 텍스트-시각 정합 supervision을 가능하게 한다.