비디오 트랜스포머
어텐션 메커니즘을 영상 데이터에 적용하여 프레임 간의 시공간적 관계를 학습하는 모델이다. 정적인 배경과 대비되는 객체의 고유한 움직임 패턴을 포착하는 데 유리하다.