타임스탬프 포함 전사
음성 데이터를 텍스트로 변환할 때 각 문장이 발화된 정확한 시간 정보를 함께 기록하는 방식이다. 이를 통해 LLM은 특정 텍스트가 비디오의 어느 시각적 장면과 일치하는지 정렬하여 추론할 수 있다.