화자 인코더
음성 신호에서 화자의 고유한 목소리 특징을 추출하여 고정된 크기의 벡터(임베딩)로 변환하는 모델이다. 멀티링구얼 환경에서 화자의 정체성을 유지하는 핵심 역할을 수행하며, 화자 인증이나 다이어라이제이션의 기초가 된다.