핵심 요약
전화번호, 주소, 코드믹스 등 엔티티가 밀집된 인도어 음성 인식은 기존 SOTA 모델과 상용 API에서도 성능이 매우 낮다. 이 논문은 저비용 TTS 시스템을 활용해 고품질 합성 데이터를 생성하고 이를 다시 ASR 학습에 사용하는 플라이휠 구조를 통해 이 격차를 획기적으로 줄이는 방법을 제시한다.
왜 중요한가
전화번호, 주소, 코드믹스 등 엔티티가 밀집된 인도어 음성 인식은 기존 SOTA 모델과 상용 API에서도 성능이 매우 낮다. 이 논문은 저비용 TTS 시스템을 활용해 고품질 합성 데이터를 생성하고 이를 다시 ASR 학습에 사용하는 플라이휠 구조를 통해 이 격차를 획기적으로 줄이는 방법을 제시한다.
핵심 기여
TTS-STT 플라이휠 아키텍처
엔티티 밀집형 인도어 오디오 처리를 위해 TTS로 데이터를 생성하고 STT를 미세 조정하는 자가 완결형 적응 루프를 구축했다. 이를 통해 텔루구어 기준 오픈소스 SOTA 대비 17배, 상용 시스템 대비 3배 높은 Entity-Hit-Rate(EHR)를 달성했다.
엔티티 밀집 합성 오디오(EDSA) 방법론
LLM을 활용해 엔티티가 포함된 문장을 생성하고, 5개의 서로 다른 TTS 시스템을 라우팅하여 음향적 다양성을 확보한 22,000개의 데이터셋을 구축했다. 생성 비용은 언어당 50달러 미만으로 매우 경제적이다.
Entity-Hit-Rate(EHR) 평가지표 도입
단순 단어 오류율(WER)이 엔티티 인식 성능을 정확히 반영하지 못하는 문제를 해결하기 위해, 엔티티 클래스별 의미론적 정규화를 포함한 새로운 지표인 EHR을 정의하고 사용했다.
핵심 아이디어 이해하기
기존의 음성 인식(ASR) 모델은 주로 위키피디아나 뉴스 같은 낭독형 텍스트로 학습되어, 실제 서비스에서 중요한 전화번호, 주소, 혼용어(Code-mix)와 같은 '엔티티 밀집' 데이터를 처리하는 데 취약하다. 이는 모델이 일반적인 문장 구조의 확률 분포(Language Model)에 의존하여 희귀한 고유 명사나 숫자 배열을 무시하거나 잘못된 스크립트로 변환하기 때문이다.
이 문제를 해결하기 위해 논문은 텍스트-음성 변환(TTS) 기술을 데이터 생성기로 활용한다. 먼저 LLM을 통해 특정 엔티티가 포함된 다양한 문장을 생성하고, 이를 여러 TTS 엔진으로 합성하여 인공적인 학습 데이터를 만든다. 이렇게 만들어진 데이터를 사용해 기존 ASR 모델의 가중치를 미세 조정(Fine-tuning)함으로써, 모델이 엔티티의 음향적 특징과 문맥적 배치를 학습하게 유도한다.
결과적으로 모델은 기존의 유창한 문장 생성 능력은 유지하면서도, 이전에는 놓치기 쉬웠던 핵심 정보(엔티티)를 정확하게 포착할 수 있게 된다. 특히 텔루구어에서 발생하는 스크립트 붕괴(Script Collapse) 현상을 언어별 LoRA 어댑터로 교정하여 인식의 정확도와 가독성을 동시에 확보했다.
방법론
전체 시스템은 EDSA 코퍼스 생성, 멀티 시스템 TTS 라우팅, LoRA 미세 조정의 세 단계로 구성된다. LLM(Anthropic Haiku-4.5)을 사용해 6가지 엔티티 클래스(숫자, 통화, 주소, 브랜드, 코드믹스, 고유명사)가 포함된 문장을 생성하며, 스크립트 순도 필터를 거쳐 데이터의 품질을 관리한다.
음향적 다양성을 위해 Praxy R6, IndicF5, ElevenLabs 등 5개의 TTS 백엔드에 문장을 분배하여 합성한다. 이때 [텍스트 입력 → TTS 엔진 연산 → 오디오 출력] 과정을 거치며, 특정 TTS 시스템에 과적합되는 것을 방지하기 위해 전체 오디오의 60%만 주 엔진(Praxy)에 할당하고 나머지는 타 시스템을 활용한다.
학습 단계에서는 Whisper-large-v2 및 v3 모델을 기반으로 LoRA(Rank=16)를 적용한다. [오디오 특징량 입력 → Transformer 인코더/디코더 연산 → 텍스트 토큰 출력] 과정에서 LoRA 어댑터는 특정 언어의 스크립트 특성과 엔티티 패턴을 학습한다. 특히 텔루구어의 경우 스크립트 충실도(SFR)를 높이기 위해 언어별 디코더 접두사(Prefix)를 강제하는 방식을 사용한다.
주요 결과
텔루구어 엔티티 밀집 테스트셋에서 오픈소스 SOTA인 vasista22는 0.027 EHR을 기록했으나, 제안된 플라이휠 모델(Praxy-STT-rb)은 0.473 EHR을 달성하여 약 17배의 성능 향상을 보였다. 상용 API인 Deepgram Nova-3(0.160 EHR)와 비교해도 3배 가까운 성능 우위를 점했다.
실제 사람이 녹음한 오디오로 검증한 결과에서도 합성 데이터로 학습한 모델이 0.516 EHR을 기록하며 성능이 유지됨을 확인했다. 이는 학습된 엔티티 인식 능력이 단순히 TTS의 음향적 특징을 외운 것이 아니라 실제 음성으로 전이되었음을 증명한다.
언어별 분석에서 텔루구어와 타밀어는 상용 시스템을 압도했으나, 힌디어의 경우 이미 상용 시스템이 충분한 엔티티 데이터를 보유하고 있어 플라이휠 모델이 다소 낮은 성능을 보였다. 또한 텔루구어에서 발생하던 스크립트 붕괴 현상을 해결하여 SFR을 0.46에서 0.97 수준으로 개선했다.
관련 Figure

제안된 Praxy-STT-rb 모델이 오픈소스 SOTA(vasista22) 및 상용 모델(Deepgram)보다 월등히 높은 0.473 EHR을 기록함을 보여준다. 이는 합성 데이터 학습이 엔티티 인식 성능을 비약적으로 향상시킴을 입증한다.
텔루구어 엔티티 밀집 테스트셋에 대한 시스템별 Entity-Hit-Rate(EHR) 비교 차트
기술 상세
본 연구는 Whisper 모델이 특정 저리소스 언어(텔루구어)에서 다른 언어의 스크립트(칸나다어 등)를 출력하는 '스크립트 붕괴' 현상을 정량화하기 위해 SFR(Script Fidelity Rate) 지표를 채택했다. 이를 해결하기 위해 언어별 LoRA 미세 조정을 수행하며, 디코더의 시작 토큰에 언어 식별자를 강제 주입하는 방식을 사용했다.
데이터 합성 시 발생하는 텍스트-음성 불일치 문제를 해결하기 위해 'Spelled-digit' 재작성 로직을 도입했다. 예를 들어 'OTP 54235'라는 텍스트가 TTS를 통해 '오 사 이 삼 오'라고 읽힐 때, 학습 레이블도 이에 맞춰 확장하여 오디오와 텍스트의 정렬을 맞췄다.
EHR 지표는 WER의 한계를 극복하기 위해 엔티티별로 정규화 규칙을 적용한다. 통화 금액의 경우 ±0.5% 오차 범위 내의 수치적 일치를 허용하며, 고유 명사는 Jaccard 유사도 0.8 이상을 기준으로 채점하여 음차 변이(Transliteration variance)를 수용하도록 설계되었다.
관련 Figure

바닐라 Whisper-v3가 텔루구어에서 0.46의 낮은 SFR을 보이며 스크립트 붕괴를 일으키는 반면, LoRA가 적용된 모델은 이를 0.94 이상으로 복구함을 시각화한다. 힌디어와 타밀어에서는 이미 높은 SFR을 유지하고 있어 해당 기법의 필요성이 낮음을 알 수 있다.
언어별 및 시스템별 스크립트 충실도(SFR) 비교 차트
한계점
현재 합성 데이터셋의 엔티티 클래스 불균형이 존재하며, 특히 숫자(digits)와 고유명사(proper_nouns) 클래스의 데이터가 부족하다. 또한 20개의 문장으로 수행된 인간 녹음 검증은 통계적 유의성을 확보하기에 샘플 수가 적으며, 단일 화자에 의한 녹음이라는 한계가 있다.
실무 활용
인도 시장을 타겟으로 하는 콜센터, 배달 서비스, 핀테크 앱의 음성 인터페이스 성능을 저비용으로 개선하는 데 즉시 활용 가능하다.
- 인도 현지 주소 및 10자리 전화번호 자동 인식 시스템 구축
- 영어와 현지어가 섞인 코드믹스(Code-mix) 환경의 상담 요약 서비스
- 저비용 합성 데이터를 활용한 특정 도메인(금융, 의료 등) 특화 ASR 모델 학습
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.