핵심 요약
싱가포르처럼 여러 언어와 방언이 섞여 쓰이는 환경에서 고성능 음성 인식 시스템을 구축하려면 막대한 비용이 듭니다. 이 논문은 적절한 데이터 균형 전략과 언어 태그 제거만으로도 소형 모델이 거대 모델에 필적하는 성능을 낼 수 있음을 증명하여, 저비용 고효율 AI 구축의 새로운 길을 제시합니다.
왜 중요한가
싱가포르처럼 여러 언어와 방언이 섞여 쓰이는 환경에서 고성능 음성 인식 시스템을 구축하려면 막대한 비용이 듭니다. 이 논문은 적절한 데이터 균형 전략과 언어 태그 제거만으로도 소형 모델이 거대 모델에 필적하는 성능을 낼 수 있음을 증명하여, 저비용 고효율 AI 구축의 새로운 길을 제시합니다.
핵심 기여
2단계 균형 다국어 업샘플링 전략
데이터가 부족한 타밀어와 말레이어의 비중을 인위적으로 높여 모든 언어가 동일한 학습 기회를 갖도록 하는 결정론적 업샘플링 기법을 적용하여 저리소스 언어의 인식 정확도를 대폭 향상시켰다.
언어 불가지론적 디코딩
학습 및 추론 시 명시적인 언어 식별 태그를 제거하여 모델이 오디오 신호 자체에서 언어를 직접 추론하도록 유도했다. 이를 통해 싱가포르 특유의 코드 스위칭 상황에서도 안정적인 인식이 가능해졌다.
극단적인 비용 효율성 달성
단일 RTX PRO 6000 GPU에서 48시간 만에 학습을 완료하여 기존 SOTA 모델 대비 학습 비용을 233배 절감하면서도 추론 속도는 20배 빠르게 구현했다.
핵심 아이디어 이해하기
기존 다국어 음성 인식 모델은 데이터가 풍부한 영어와 중국어에 편향되어 학습되는 경향이 있다. 이로 인해 타밀어나 말레이어 같은 저리소스 언어에서는 성능이 급격히 저하되며, 특히 여러 언어가 섞여 쓰이는 환경에서는 사전에 언어 태그를 지정해야 하는 제약이 실무 적용의 걸림돌이 된다.
Polyglot-Lion은 데이터 균형과 태그 제거라는 두 가지 핵심 원리로 이를 해결한다. 먼저, 모든 언어의 데이터 양을 강제로 맞추는 2단계 업샘플링을 통해 모델이 특정 언어에 매몰되지 않게 한다. 그 다음, 입력 오디오에 언어 정보를 주지 않음으로써 모델이 소리의 특징만으로 언어를 스스로 판단하게 만든다.
결과적으로 1.7B 규모의 작은 모델이 10B 규모의 거대 모델과 대등한 정확도를 기록했다. 이는 모델의 크기보다 학습 데이터의 구성 방식과 태스크 정의가 실질적인 성능과 효율성에 더 결정적인 영향을 미칠 수 있음을 시사한다.
방법론
Qwen3-ASR-0.6B 및 1.7B를 베이스 모델로 사용하며, 공개된 음성 코퍼스만을 활용해 파인튜닝을 진행한다. Transformer 기반의 Encoder-Decoder 구조를 유지하되, 오디오 특징을 추출하는 Conformer 인코더와 텍스트를 생성하는 Autoregressive 디코더의 사전 학습된 지식을 활용한다.
2단계 균형 다국어 업샘플링을 적용한다. 1단계에서는 각 언어 내의 데이터셋 간 불균형을 해소하고, 2단계에서는 언어 간 샘플 수를 동일하게 맞춘다. [각 언어 l의 데이터셋 크기 N_l,k 입력] → [최대 크기 N_l*에 맞춰 복제 및 샘플링] → [모든 언어가 전체의 25% 비중을 차지하는 데이터셋 생성] → [언어별 학습 기회 균등화] 과정을 거친다.
언어 태그를 제거한 디코딩 방식을 채택한다. 기존 방식이 언어 토큰을 디코더 입력에 넣어 언어를 명시했다면, 본 연구는 이를 생략한다. [오디오 신호 입력] → [인코더의 특징 추출] → [디코더가 태그 없이 직접 텍스트 생성] → [음향 특징에 기반한 암시적 언어 식별] 메커니즘을 통해 코드 스위칭 대응력을 높인다.
주요 결과
12개의 벤치마크에서 Polyglot-Lion-1.7B는 평균 에러율 14.85를 기록하여, 6배 더 큰 MERaLiON-2-10B-ASR(14.32)에 근접하는 성능을 보였다. 특히 타밀어의 경우 베이스 모델 대비 에러율을 72% 이상(139.96에서 39.19로) 낮추는 성과를 거두었다.
추론 속도 면에서 샘플당 0.10초를 기록하여 MERaLiON(2.02초) 대비 약 20배 빠른 처리량을 확보했다. 이는 실시간 서비스 배포에 매우 유리한 수치이다.
비용 분석 결과, 단일 GPU에서 81달러의 비용으로 학습을 완료했다. 이는 128개의 H100 GPU를 사용하여 약 18,862달러가 소요된 기존 SOTA 모델 대비 233배 저렴한 수치이다.
실무 활용
저비용으로 고성능 다국어 음성 인식을 구현하려는 기업이나 연구소에 최적화된 솔루션이다. 특히 언어 혼용이 잦은 동남아시아 시장의 고객 센터나 방송 자막 서비스에 즉시 적용 가능하다.
- 싱가포르 및 말레이시아 지역 특화 고객 상담 음성 인식
- 다국어 회의록 자동 작성 및 실시간 자막 생성
- 저사양 엣지 디바이스용 온디바이스 음성 비서
- 코드 스위칭이 빈번한 팟캐스트 및 영상 콘텐츠 인덱싱
기술 상세
아키텍처는 Qwen3-ASR의 설계를 따르며, Log-Mel Filterbank 특징을 입력으로 받는 Conformer 기반 인코더와 Autoregressive 디코더로 구성된다. 0.6B와 1.7B 두 가지 크기의 체크포인트를 제공하여 성능과 효율성 사이의 트레이드오프를 선택할 수 있게 했다.
학습 시 AdamW 옵티마이저와 Cosine Annealing 스케줄러를 사용하며, Peak Learning Rate는 2e-5로 설정했다. Effective Batch Size 32로 단일 NVIDIA RTX PRO 6000(48GB VRAM) 환경에서 48시간 동안 학습을 수행했다.
기존 Whisper나 MMS와 달리 언어 식별 단계를 생략하고 암시적 식별을 유도한 것이 특징이다. 이는 수식적으로 P(y|x, lang_tag) 대신 P(y|x)를 직접 모델링하는 것과 같으며, 오디오 내의 음향적 단서가 언어 정보를 충분히 내포하고 있다는 가설을 실험적으로 입증했다.
한계점
싱가포르 특유의 Singlish 구성이나 복잡한 코드 스위칭 문장에 대한 직접적인 평가 데이터셋이 이번 벤치마크에는 포함되지 않아, 실제 혼용 상황에서의 정밀한 성능 측정에는 한계가 있다. 또한 영어-NSC 데이터셋에서 거대 모델 대비 약간의 성능 격차가 존재한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료