실시간 설명
Real-Time Description은 비디오가 진행되면서 시점별로 변화하는 시각·청각 정보를 모델이 지속적으로 파악하고, 주어진 지시와 일치하는 시점 정합적인 응답을 생성하는 평가 시나리오이다.