video-transformer
어텐션 메커니즘을 영상 데이터에 적용하여 프레임 간의 시공간적 관계를 학습하는 모델이다. 정적인 배경과 대비되는 객체의 고유한 움직임 패턴을 포착하는 데 유리하다.
흐릿한 수중 영상 속 위장된 상어, 어떻게 찾아낼까?