모달리티 정렬
텍스트 기반 모델이 음성 같은 다른 형태의 데이터를 이해할 수 있도록 두 데이터 간의 표현 공간을 일치시키는 학습 과정이다. 이를 통해 텍스트 모델의 추론 능력을 음성 인식 영역에서도 활용할 수 있게 된다.