강제 정렬
음성 데이터와 해당 텍스트 대본을 비교하여 각 단어나 음절이 나타나는 정확한 시간 위치를 찾아내는 기술이다. 영상 편집 자동화에서 컷 편집의 기준이 되는 정교한 타임스탬프를 생성하는 데 필수적이다.