핵심 요약
기존 화자 인코더는 동일 인물이 힌디어에서 영어로 언어를 바꿀 때 목소리가 달라진 것으로 오인하는 문제가 있다. LASE는 언어 정보를 의도적으로 제거하는 적대적 학습을 통해 인도어 환경에서 화자 인식의 정확도를 획기적으로 개선하며, 특히 다국어 음성 합성 및 화자 분리 시스템의 신뢰성을 높인다.
왜 중요한가
기존 화자 인코더는 동일 인물이 힌디어에서 영어로 언어를 바꿀 때 목소리가 달라진 것으로 오인하는 문제가 있다. LASE는 언어 정보를 의도적으로 제거하는 적대적 학습을 통해 인도어 환경에서 화자 인식의 정확도를 획기적으로 개선하며, 특히 다국어 음성 합성 및 화자 분리 시스템의 신뢰성을 높인다.
핵심 기여
인도어 교차 스크립트 벤치마크 구축
영어, 힌디어, 텔루구어, 타밀어 등 4개 언어에 걸쳐 8명의 목소리를 활용한 1,118개의 학습 쌍과 1,043개의 평가 쌍으로 구성된 최초의 인도어 교차 스크립트 화자 정체성 데이터셋을 제작했다.
LASE 아키텍처 제안
고정된 WavLM-base-plus 백본 위에 작은 프로젝션 헤드를 추가하고, 언어 분류기에 대한 Gradient Reversal Layer(GRL)를 적용하여 언어에 무관한 화자 임베딩을 생성하는 모델을 개발했다.
교차 스크립트 정체성 격차 84.3% 감소
기존 WavLM-SV 모델이 언어 변경 시 보였던 0.082의 코사인 유사도 하락폭을 0.013으로 줄여 언어 변화에 따른 화자 인식 오류를 거의 완벽하게 해결했다.
데이터 효율적 화자 분리 성능 입증
약 100배 더 많은 데이터로 학습된 ECAPA-TDNN 모델과 비교하여, 훨씬 적은 데이터셋만으로도 대등한 수준의 교차 스크립트 화자 재현율(0.788)을 달성했다.
핵심 아이디어 이해하기
화자 인코더는 음성에서 '누가 말하는가'라는 정체성 정보만 추출해야 하지만, 실제로는 '어떤 언어로 말하는가'라는 정보가 임베딩에 섞여 들어가는 현상(Entanglement)이 발생한다. 특히 인도어처럼 음성학적 특징이 독특한 언어군에서는 동일 화자가 언어를 바꿀 때 모델이 이를 다른 사람으로 인식하는 치명적인 오류가 발생한다.
LASE는 이 문제를 해결하기 위해 '언어 분류기'와 '화자 인코더'가 서로 싸우게 만드는 적대적 학습 원리를 도입했다. 화자 인코더는 화자를 잘 구별하도록 학습되는 동시에, 언어 분류기가 현재 음성이 어떤 언어인지 맞추지 못하도록 임베딩에서 언어적 특징을 지워버리도록 강제된다. 이는 Gradient Reversal Layer를 통해 구현되며, 결과적으로 임베딩 공간에서 언어 정보는 사라지고 화자의 고유한 목소리 특징만 남게 된다.
이 과정을 통해 모델은 특정 언어의 발음이나 억양에 휘둘리지 않고 화자의 본질적인 성대 특성을 포착하게 된다. 결과적으로 힌디어로 말하든 영어로 말하든 임베딩 공간에서 동일한 위치에 화자가 배치되므로, 다국어 환경에서도 끊김 없는 화자 추적이 가능해진다.
방법론
LASE의 아키텍처는 세 가지 주요 구성 요소로 이루어진다. 첫째, 16kHz 오디오 입력을 받아 프레임 레벨 특징을 추출하는 고정된 WavLM-base-plus 백본을 사용한다. 둘째, 추출된 특징 중 화자 정보가 풍부한 10-12번 레이어를 평균 풀링하여 입력받는 2층 MLP 구조의 학습 가능한 프로젝션 헤드(768 → 512 → 256)를 배치한다. 셋째, 생성된 256차원 임베딩 z를 입력받아 언어(영어, 힌디어, 텔루구어, 타밀어)를 예측하는 Gradient Reversal Classifier를 연결한다.
학습 손실 함수는 두 가지의 합으로 구성된다. 먼저 Supervised Contrastive (SupCon) Loss는 배치 내에서 동일 화자의 음성 임베딩 간 코사인 유사도를 높이고 타인과는 멀어지게 한다. [임베딩 벡터 쌍 → 내적 연산 및 Softmax → 유사도 점수 산출 → 화자 일치 여부에 따른 손실 계산]. 동시에 Language Adversarial Loss는 언어 분류기의 Cross-Entropy 손실을 계산하되, GRL을 통해 역전된 그래디언트를 프로젝션 헤드에 전달한다. [임베딩 벡터 → 언어 분류기 통과 → 언어 확률 분포 출력 → 실제 언어 레이블과의 오차 계산]. 이 오차를 줄이려는 분류기에 반해 프로젝션 헤드는 오차를 키우는 방향으로 학습되어 언어 정보를 은폐한다.
주요 결과
Western-accented 데이터셋 평가 결과, LASE r1은 동일 화자의 언어 변경 시 발생하는 유사도 하락(Gap)을 0.013으로 억제했다. 이는 베이스라인인 WavLM-base-plus-sv(0.083) 및 ECAPA-TDNN(0.107) 대비 압도적으로 낮은 수치이다. 또한 화자 간 구별 명확성을 나타내는 Margin(M) 지표에서 0.662를 기록하여 WavLM-SV(0.245)보다 2.7배 넓은 여유 공간을 확보했다.
인도 현지 억양(Indian-accented) 데이터셋에서도 LASE는 0.026의 낮은 Gap을 유지하며 견고한 성능을 보였다. 흥미로운 점은 오프더쉘프(off-the-shelf) 모델들이 인도 억양 환경에서는 상대적으로 낮은 Gap(WavLM 0.006)을 보였는데, 이는 인도식 영어와 인도어들이 공유하는 음성학적 특징 때문으로 분석됐다. 하지만 LASE는 두 환경 모두에서 일관되게 높은 Margin을 유지하며 화자 변별력을 보존했다.
합성된 다화자 코드 스위칭 다이어라이제이션 벤치마크에서 LASE는 0.788의 교차 스크립트 화자 재현율(cs-recall)을 기록했다. 이는 100만 개 이상의 VoxCeleb 데이터로 학습된 ECAPA-TDNN(0.789)과 통계적으로 대등한 성능이며, 별도의 교차 스크립트 학습이 없는 WavLM(0.604)을 크게 상회하는 결과이다.
관련 Figure

학습이 진행됨에 따라 화자 손실은 지속적으로 감소하여 변별력 있는 임베딩을 형성하는 반면, 언어 손실은 무작위 예측 수준인 ln 4(약 1.386) 근처에서 유지된다. 이는 모델이 화자 정보는 성공적으로 학습하면서도 언어 정보는 효과적으로 차단하고 있음을 증명한다.
LASE r1 모델의 학습 과정 중 화자 손실(Lspeaker)과 언어 적대적 손실(Llang_adv)의 변화를 보여주는 그래프이다.
기술 상세
LASE는 WavLM-base-plus의 트랜스포머 스택 중 SV(Speaker Verification) 성능이 가장 좋다고 알려진 10-12번 레이어의 출력을 활용한다. 프로젝션 헤드는 ReLU 활성화 함수와 0.1의 드롭아웃을 포함한 MLP 구조이며, 최종적으로 256차원의 L2 정규화된 임베딩을 출력한다. GRL의 스케줄링은 초기 200스텝 동안 0으로 유지하여 화자 임베딩 공간이 먼저 형성되도록 한 뒤, 이후 500스텝에 걸쳐 0.1까지 선형적으로 증가시키는 3단계 전략을 취해 학습 안정성을 확보했다.
실험 결과에 따르면, GRL 목적 함수는 백본의 종류와 상관없이 성능 향상을 가져오지만, WavLM 백본이 ECAPA-TDNN 백본보다 언어 정보를 더 완벽하게 은폐(Llang이 ln 4에 수렴)하는 데 유리함이 확인됐다. 이는 대규모 자기지도학습(SSL) 모델인 WavLM이 이미 풍부한 특징 표현력을 갖추고 있어, 적대적 학습을 통해 특정 정보를 분리해내기가 더 용이하기 때문으로 해석된다.
한계점
본 연구는 ElevenLabs Multilingual v3로 합성된 데이터만을 사용하여 학습 및 평가되었으므로, 실제 인간의 자연스러운 교차 스크립트 음성에서도 동일한 성능이 유지될지는 추가 검증이 필요하다. 또한 평가 데이터셋이 학습에 사용된 화자를 포함하고 있어(문장은 미노출), 완전히 새로운 화자에 대한 일반화 성능은 향후 과제로 남아 있다.
실무 활용
다국어 음성 서비스 및 인도 시장 타겟 AI 솔루션에 즉시 적용 가능한 화자 인코딩 기술이다.
- 다국어 보이스 클로닝: 한 언어의 샘플만으로 다른 언어에서도 동일한 목소리를 생성하는 TTS 시스템
- 인도어 콜센터 분석: 힌디어와 영어를 섞어 쓰는 상담원과 고객의 대화를 정확하게 화자별로 분리
- 다국어 화자 인증: 사용자가 어떤 언어로 말하든 동일 인물임을 확인하는 보안 시스템
코드 공개 여부: 공개
코드 저장소 보기키워드
코드 예제
Lspk = 1/B * sum_i(-log(sum_{j in P(i)} exp(zi * zj / tau) / sum_{j != i} exp(zi * zj / tau)))화자 정체성을 강화하기 위해 사용된 Supervised Contrastive (SupCon) 손실 함수 수식
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.