비디오 표현
연속 프레임에서 시간적·공간적 특징을 추출해 고정 길이 임베딩으로 압축하는 방법을 의미하며, 3D Conv, TimeSformer, frame-wise CNN + temporal pooling 등으로 구현된다. 영상 특성 반영이 평가 결과에 직접적인 영향을 미치므로 파이프라인 설계에서 중요하다.