핵심 요약
쿠란 낭독은 독특한 음향적 특성과 엄격한 발음 규칙(Tajwid)을 가지고 있어 일반적인 음성 인식 모델로는 처리에 한계가 있다. Tadabur는 600명 이상의 낭독자가 참여한 1400시간 이상의 데이터를 제공하여, 종교적·문화적으로 중요한 도메인 특화 음성 기술 연구를 위한 강력한 기반을 마련했다.
왜 중요한가
쿠란 낭독은 독특한 음향적 특성과 엄격한 발음 규칙(Tajwid)을 가지고 있어 일반적인 음성 인식 모델로는 처리에 한계가 있다. Tadabur는 600명 이상의 낭독자가 참여한 1400시간 이상의 데이터를 제공하여, 종교적·문화적으로 중요한 도메인 특화 음성 기술 연구를 위한 강력한 기반을 마련했다.
핵심 기여
대규모 쿠란 음성 데이터셋 구축
600명 이상의 다양한 낭독자가 참여한 1400시간 이상의 고품질 쿠란 낭독 오디오와 텍스트 쌍을 구축했다.
자동화된 데이터 큐레이션 파이프라인 제안
LLM 기반 메타데이터 추출, WhisperX 기반 정렬, ASR 기반 콘텐츠 필터링을 결합하여 대규모 데이터를 효율적으로 정제하는 파이프라인을 설계했다.
정밀한 단어 수준 타임스탬프 및 메타데이터 제공
모든 구절(Ayah) 단위 오디오 파일에 대해 기계 학습이 가능한 단어 수준 정렬 정보와 구조화된 JSON 메타데이터를 포함했다.
핵심 아이디어 이해하기
기존의 음성 인식(ASR) 데이터셋은 주로 일상 대화나 낭독문에 집중되어 있어, 쿠란 낭독 특유의 긴 음소 지속 시간, 멜로디 구조, 그리고 엄격한 음성학적 규칙을 반영하지 못한다. 특히 기존 쿠란 데이터셋은 규모가 작거나 낭독자의 다양성이 부족하여 모델의 일반화 성능을 확보하기 어려웠다.
이 논문은 이러한 한계를 극복하기 위해 대규모 데이터를 수집하고, 이를 정밀하게 정렬(Alignment)하는 데 집중한다. 핵심은 WhisperX의 강제 정렬(Forced Alignment) 기능과 시맨틱 임베딩 모델을 결합하여, 긴 오디오 파일에서 각 구절이 시작되고 끝나는 지점을 정확히 찾아내는 것이다.
결과적으로 Tadabur는 단순한 데이터 양의 증가를 넘어, 다양한 녹음 환경과 낭독 스타일을 포괄함으로써 도메인 특화 모델이 실제 환경에서 강건하게 동작할 수 있는 학습 데이터를 제공한다.
방법론
데이터 수집 및 메타데이터 추출 단계에서는 Gemini 2.5 Flash를 활용하여 비정형 텍스트 설명에서 수라(Surah) 이름과 낭독자 식별 정보를 추출하고 정규화한다. [비정형 텍스트 입력 → LLM 추론 → 구조화된 JSON 출력 → 데이터 분류 및 필터링에 활용]
구절 정렬 모듈(Ayah Alignment Module)은 Whisper Large v3와 WhisperX를 사용하여 오디오의 단어 수준 타임스탬프를 생성한다. 이후 SILMA AI 임베딩 모델을 통해 텍스트 임베딩을 생성하고 코사인 유사도를 계산하여 실제 쿠란 텍스트와 오디오 구간을 매칭한다. [텍스트 및 오디오 구간 입력 → 벡터 변환 및 유사도 계산 → 임계값 비교 → 정밀 구간 추출]
최종 정제 단계에서는 중복 제거를 위해 Efficient Audio Transformer(EAT)를 사용하여 오디오 임베딩을 추출하고, 유사도가 0.9 이상인 샘플을 그래프의 연결 성분(Connected Components)으로 모델링하여 대표 샘플 하나만 남긴다. [오디오 입력 → EAT 임베딩 추출 → 유사도 기반 그래프 생성 → 중복 제거]
관련 Figure

전체 시스템이 어떻게 원본 오디오를 단어 수준의 타임스탬프가 포함된 정제된 데이터셋으로 변환하는지 보여준다. 특히 WhisperX와 쿠란 API의 결합을 통한 자동화 과정을 명확히 시각화한다.
오디오 입력부터 WhisperX를 거쳐 구절 정렬 모듈(AAM)로 이어지는 전체 파이프라인 요약도

텍스트 정규화 후 임베딩 모델을 통해 유사도를 계산하고 임계값을 기준으로 시간을 추출하는 과정을 상세히 설명한다. 이는 단순 텍스트 매칭의 한계를 벡터 유사도로 해결함을 보여준다.
SILMA 임베딩 모델을 활용한 구절 정렬 모듈의 상세 구조

수집된 메타데이터를 LLM에 입력하여 실제 쿠란 낭독인지 아니면 설교나 강의인지 분류하는 과정을 보여준다. 이를 통해 데이터셋의 순도를 높이는 큐레이션 전략을 확인할 수 있다.
LLM을 이용한 메타데이터 분류 및 유효성 검사 파이프라인
주요 결과
파이프라인 평가 결과, SILMA 임베딩 기반 정렬 방식은 기존의 퍼지 문자열 매칭(Fuzzy Matching) 대비 약 10%p 높은 96.63%의 평균 정렬 커버리지를 기록했다. 이는 쿠란 특유의 긴 발음이나 변칙적인 낭독 스타일에도 시맨틱 매칭이 더 강건함을 입증한다.
ASR 모델 벤치마크 결과, 도메인 적응이 되지 않은 대형 모델보다 쿠란 데이터로 파인튜닝된 소형 모델(Whisper-Quran, 74M)이 8.7%의 WER(Word Error Rate)을 기록하며 가장 우수한 성능을 보였다. 이는 모델 크기보다 도메인 특화 학습이 쿠란 인식 성능에 더 결정적인 영향을 미침을 시사한다.
기술 상세
Tadabur 아키텍처는 데이터 수집, LLM 기반 메타데이터 정제, WhisperX 기반 정렬, 그리고 EAT 기반 중복 제거의 4단계 자동화 파이프라인으로 구성된다. 특히 구절의 끝부분을 정확히 자르기 위해 전용 낭독 종료 지점 탐지(Recitation Stop Segmentation) 모델을 도입하여 WhisperX의 타임스탬프 오차를 보정한다.
데이터셋은 113개 수라를 포함하며, 600명 이상의 낭독자로부터 수집된 365,000개 이상의 세그먼트로 이루어져 있다. 모든 데이터는 단어 수준의 정렬 정보를 포함하고 있어 미세한 발음 분석 연구에 적합하다.
한계점
일부 낭독자의 경우 모든 구절에 대한 녹음본이 존재하지 않아 데이터 공백이 있으며, WhisperX 기반의 자동 정렬 모델이 쿠란 특유의 복잡한 조음 규칙을 완벽히 반영하지 못해 타임스탬프에 미세한 오차가 발생할 수 있다.
실무 활용
쿠란 음성 인식, 낭독 교정 시스템, 낭독자 식별 등 다양한 이슬람 기술(Islamic Tech) 분야에서 즉시 활용 가능하다.
- 쿠란 암기 및 낭독 학습자를 위한 실시간 발음 교정 에이전트 개발
- 대규모 쿠란 오디오 아카이브를 위한 자동 자막 및 검색 인덱싱 시스템
- 낭독 스타일 및 운율 분석을 통한 언어학적 연구 도구
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.