비디오-언어 결합 임베딩 예측 아키텍처
비디오와 텍스트 데이터를 동시에 처리하여 시각적 맥락을 이해하는 자가 지도 학습 모델이다. 로컬 환경에서 효율적인 분산 학습을 가능하게 하는 구조적 기반을 제공한다.