비디오 캡셔닝
비디오의 시각적 내용을 텍스트로 설명하는 기술이다. 멀티모달 AI 모델이 비디오 프레임을 분석하여 상황, 객체, 동작을 서술하며, 이는 비디오 생성 모델의 학습을 위한 고품질 데이터셋 구축에 필수적인 과정이다.