Whisper-Accent: 억양 인식 기능을 추가하여 Whisper의 영어 전사 성능 개선

핵심 요약

OpenAI Whisper 모델에 억양 조건부 AdaLN과 분류 헤드를 추가하여 다양한 영어 억양에 대한 전사 정확도를 높인 오픈소스 프로젝트이다.

배경

다양한 영어 억양(Accent)에 따른 Whisper 모델의 전사 성능 저하 문제를 해결하기 위해, 모델의 일반화 성능을 유지하면서도 특정 억양에 최적화된 어댑터를 추가한 연구 결과를 공유했다.

의미 / 영향

Whisper와 같은 거대 모델을 전면 재학습하지 않고도 AdaLN과 같은 경량 어댑터 구조를 통해 특정 도메인 성능을 크게 개선할 수 있음이 확인됐다. 특히 인코더 정보를 활용한 분류기와 디코더 조건부 주입의 결합은 향후 다국어 또는 다중 화자 환경의 ASR 최적화에 중요한 참고 사례가 된다.

커뮤니티 반응

작성자는 억양 인식 기반의 ASR 연구를 위해 전체 학습 설정과 체크포인트를 공개했으며, 시각화 등에 대한 커뮤니티의 피드백을 요청하고 있다. 전반적으로 기술적 구현 방식과 구체적인 벤치마크 수치에 대해 긍정적인 반응을 얻을 것으로 예상된다.

실용적 조언

특정 도메인이나 억양에 특화된 ASR 모델이 필요할 때 전체 파인튜닝 대신 AdaLN 기반의 어댑터 구조를 활용하면 효율적이다.
인코더의 은닉 상태를 활용하여 발화자의 특성을 분류하고 이를 디코더의 조건부 입력으로 사용하는 아키텍처를 참고할 수 있다.

언급된 도구

Whisper추천링크

음성 인식 및 전사 모델

섹션별 상세

Whisper-Accent는 Whisper 모델의 디코더 레이어마다 AdaLN(Adaptive Layer Normalization)을 확장하여 억양별 조건부 학습을 수행한다. 가중치는 0으로 초기화하여 학습을 시작하고, 바이어스는 사전 학습된 LayerNorm의 파라미터로 초기화한 후 동결하는 방식을 취했다. 이를 통해 기존 모델의 지식을 보존하면서도 새로운 억양 정보를 효과적으로 주입한다.

억양 인식을 위해 인코더의 은닉 상태(Hidden States)를 활용하는 별도의 분류 헤드를 도입했다. 모든 레이어의 가중 합산과 입력 임베딩, 프로젝션 레이어, 그리고 시간 축에 대한 멀티 헤드 어텐션 풀링을 결합하여 억양을 예측한다. 이 과정에서 인코더와 디코더 본체는 완전히 동결되어 원래의 강력한 일반화 능력을 잃지 않도록 설계됐다.

성능 평가 결과, Whisper-Accent 모델은 기존 Whisper 모델 대비 눈에 띄는 WER(Word Error Rate) 감소를 보여주었다. 특히 medium.en 모델 기반의 Whisper-Accent는 기존 17.5%에서 13.4%로 WER을 낮추었으며, 억양 분류 정확도는 95.7%에 달했다. 이는 단순한 전사 성능 향상을 넘어 모델이 발화자의 억양을 정확히 식별하고 있음을 입증한다.

실무 Takeaway

AdaLN과 억양 임베딩을 통해 Whisper 모델의 인코더/디코더를 동결한 채로 억양 적응이 가능하다.
인코더 은닉 상태를 활용한 분류 헤드는 95% 이상의 높은 억양 식별 정확도를 제공한다.
기존 Whisper medium 모델 대비 최대 4.1%p의 WER 개선 효과를 확인했다.

언급된 리소스

GitHubWhisper-Accent GitHub Repository