비디오 결합 임베딩 예측 아키텍처
얀 르쿤이 제안한 모델로, 비디오의 가려진 부분을 예측하며 세계의 물리적 법칙을 스스로 학습하는 구조이다. 기존 LLM의 텍스트 편향을 극복하려는 시도이다.