소믈리에(Sommelier): 전이중 음성 언어 모델을 위한 확장 가능한 오픈소스 다중 턴 오디오 전처리 파이프라인

기존 음성 AI는 한 명씩 번갈아 말하는 데이터에 의존해 실제 대화의 겹침이나 끼어들기를 처리하는 데 한계가 있었다. 이 논문은 복잡한 다인 대화 오디오를 자동으로 정제하고 분리하는 파이프라인을 공개하여, 사람처럼 자연스럽게 듣고 동시에 말하는 '전이중(Full-duplex)' 모델 개발의 데이터 부족 문제를 해결한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

전이중 SLM을 위한 최초의 확장 가능한 파이프라인

다중 턴 대화 음성을 큐레이션하여 전이중 학습에 적합한 고품질 데이터를 생성하는 오픈소스 도구를 제공하여 커뮤니티의 데이터 기근 문제를 해결함.

고정밀 겹침 음성 처리 메커니즘

Sortformer 기반의 정밀한 화자 분할과 SepReformer를 이용한 음성 분리 전략을 통해, 대화 중 목소리가 겹치는 구간의 정보를 손실 없이 보존하고 화자를 정확히 식별함.

앙상블 기반 ASR 및 환각 억제

Whisper, Canary, Parakeet 등 3개 모델을 결합한 ROVER 전략과 n-gram 필터링을 도입하여 음성 인식 환각을 억제하고 텍스트 레이블의 정확도를 극대화함.

산업적 규모의 데이터 처리 효율성

A100 GPU 8장으로 10,000시간의 오디오를 약 55시간 만에 처리할 수 있는 높은 처리량을 입증하여 대규모 데이터셋 구축의 실무적 타당성을 확보함.

핵심 아이디어 이해하기

기존 음성 데이터 처리 방식은 깨끗하고 겹치지 않는 음성을 가정하지만, 실제 사람 간의 대화는 동시에 말을 하거나 맞장구를 치는 등 복잡한 역학을 가진다. Transformer 기반의 음성 언어 모델(SLM)이 이러한 자연스러운 대화를 배우려면 겹치는 음성 구간이 포함된 데이터가 필수적이다. Sommelier는 이를 위해 '분리 후 재결합' 전략을 사용한다.

먼저 Sortformer를 활용해 아주 짧은 발화까지 잡아내는 정밀한 Speaker Diarization을 수행한다. 이후 음성이 겹치는 구간만 따로 추출하여 SepReformer 모델로 각 화자의 목소리를 분리한다. 분리된 각 화자의 음성 Embedding을 기존의 겹치지 않는 구간의 Embedding과 비교하여 누구의 목소리인지 정확히 매칭한다.

결과적으로 모델은 겹치는 음성에서도 각 화자가 무엇을 말했는지 정확히 학습할 수 있게 된다. 이는 모델이 단순히 텍스트를 읽어주는 수준을 넘어, 상대방의 말을 들으면서 적절한 타이밍에 반응하거나 끼어드는 능력을 갖추게 함을 의미한다.

방법론

전체 파이프라인은 오디오 표준화, VAD(음성 활동 감지), Speaker Diarization, 겹침 분리, 배경음악(BGM) 제거, 앙상블 ASR의 모듈형 구조로 설계되었다. 긴 오디오를 5분 단위로 분할하여 메모리 부족 문제를 방지하고, 무음 구간을 기준으로 잘라 대화의 맥락을 유지한다.

Speaker Diarization 단계에서는 NVIDIA의 Sortformer를 채택했다. 겹침 처리 시에는 [겹친 오디오 → SepReformer 연산 → 두 개의 후보 음성 생성] 과정을 거친 뒤, [후보 음성 Embedding과 화자 참조 Embedding 간 Cosine Similarity 계산 → 높은 유사도 화자 할당] 방식으로 화자 식별을 수행한다. Cosine Similarity는 두 벡터 사이의 각도를 계산하여 -1에서 1 사이의 값을 얻으며, 1에 가까울수록 동일 인물일 확률이 높음을 의미한다.

텍스트 레이블링을 위해 Whisper-large-v3, Canary-1b, Parakeet-tdt 등 3종의 모델을 결합한 ROVER 앙상블을 사용한다. [3개 모델의 단어 단위 출력 → 다수결 투표(Majority Voting) → 최종 텍스트 결정] 과정을 통해 단일 모델에서 발생하는 환각을 억제한다. 또한 n-gram 필터링을 적용해 [연속된 단어 뭉치의 반복 횟수를 입력으로 → 임계값(n=15, count>=5) 초과 여부를 판단하여 → 해당 샘플을 제거]함으로써 데이터의 순도를 높인다.

주요 결과

Full-Duplex-Bench 1.0 평가 결과, Sommelier로 가공된 데이터로 파인튜닝한 Moshi 모델은 사용자 끼어들기(User Interruption) 대응 능력이 GPT-4o 평가 점수 기준 0.765에서 3.684로 대폭 향상되었다. 맞장구(Backchannel) 빈도 역시 0.001에서 0.052로 증가하여 더 자연스러운 대화가 가능해졌다.

Diarization 성능 면에서 Sortformer는 VoxConverse 데이터셋 기준 DER(Diarization Error Rate) 7.16%를 기록하여 Pyannote 3.1(8.40%)보다 우수한 성능을 보였다. 특히 1초 이하의 짧은 발화에 대한 DER은 16.87%로 기존 모델(20.21%) 대비 크게 개선되었다.

ASR 앙상블은 Lib리Speech Test-Other 기준 WER(Word Error Rate)을 Whisper 단일 모델의 6.26%에서 3.92%로 약 37% 감소시켰다. 처리 속도 측면에서는 120초 오디오를 처리하는 데 약 21초가 소요되어 실질적인 대규모 데이터 가공이 가능함을 입증했다.

기술 상세

Sommelier 아키텍처는 모듈형 프레임워크로 설계되어 각 컴포넌트의 설정 변경이나 On/Off가 자유롭다. 핵심인 겹침 분리 모듈은 SepReformer를 기반으로 하며, 분리된 오디오의 화자 식별을 위해 비겹침 구간에서 추출한 화자 Embedding을 앵커(Anchor)로 활용하는 메커니즘을 갖추고 있다.

BGM 제거 모듈은 PANNs를 사용하여 배경음악 존재 확률을 추정하고, 임계값(0.3)을 초과할 경우에만 Demucs 모델을 적용하여 음성 품질 저하를 최소화한다. ASR 앙상블은 ROVER 알고리즘을 통해 서로 다른 아키텍처의 모델들이 가진 강점을 결합하며, Whisper의 타임스탬프 추출 기능을 활용해 오디오와 텍스트 토큰 간의 정밀한 동기화를 보장한다.

구현 측면에서 83시간의 Sommelier 가공 데이터를 활용해 Moshi 모델을 LoRA(Rank=128) 방식으로 파인튜닝했으며, 이를 통해 전이중 대화 능력이 비약적으로 상승함을 확인했다. 이는 고품질의 정제된 데이터가 모델 아키텍처만큼이나 중요하다는 데이터 중심 AI(Data-centric AI)의 가치를 보여준다.

한계점

음성 데이터 처리에만 집중되어 있어 비음성 음향 이벤트나 일반적인 주변 환경 소리를 명시적으로 고려하지 않으며, 이는 옴니모달 오디오 접근 방식에 비해 범용성이 제한될 수 있다.

실무 활용

실제 사람과 대화하는 듯한 실시간 음성 비서나 상담 에이전트 학습 데이터를 구축하는 데 즉시 활용 가능하다. 팟캐스트, 라디오, 인터뷰 등 노이즈와 겹침이 많은 야생 데이터를 고품질 학습용 데이터셋으로 변환하는 데 최적화되어 있다.

실시간 동시통역 및 끼어들기 지원 시스템 개발
다자간 회의 요약 및 화자별 발화 분석 도구 구축
감성 대화형 AI 챗봇을 위한 다중 턴 대화 데이터셋 생성
방송 콘텐츠의 화자별 자막 자동 생성 및 정제

코드 공개 여부: 공개

코드 저장소 보기

키워드

SLM(음성 언어 모델)Full-duplex(전이중)Speaker Diarization(화자 분할)ASR Ensemble(음성 인식 앙상블)Overlap Separation(겹침 분리)

코드 예제

json

{
  "metadata": {
    "audio_duration_seconds": 120.0,
    "vad_sortformer": {
      "processing_time_seconds": 0.97427,
      "rt_factor": 0.00811
    },
    "whisper_large_v3": {
      "processing_time_seconds": 14.90329,
      "rt_factor": 0.12419
    }
  },
  "segments": [
    {
      "start": 0.0,
      "end": 0.64,
      "text": "Mr. Franklin?",
      "speaker": "SPEAKER_00",
      "is_separated": true,
      "words": [
        { "word": "Mr.", "start": 0.0, "end": 0.171, "score": 0.414 },
        { "word": "Franklin?", "start": 0.192, "end": 0.661, "score": 0.936 }
      ]
    }
  ]
}

Sommelier 파이프라인을 거쳐 생성된 최종 데이터의 JSON 구조 예시

소믈리에(Sommelier): 전이중 음성 언어 모델을 위한 확장 가능한 오픈소스 다중 턴 오디오 전처리 파이프라인

{ "metadata": { "audio_duration_seconds": 120.0, "vad_sortformer": { "processing_time_seconds": 0.97427, "rt_factor": 0.00811 }, "whisper_large_v3": { "processing_time_seconds": 14.90329, "rt_factor": 0.12419 } }, "segments": [ { "start": 0.0, "end": 0.64, "text": "Mr. Franklin?", "speaker": "SPEAKER_00", "is_separated": true, "words": [ { "word": "Mr.", "start": 0.0, "end": 0.171, "score": 0.414 }, { "word": "Franklin?", "start": 0.192, "end": 0.661, "score": 0.936 } ] } ] }

소믈리에(Sommelier): 전이중 음성 언어 모델을 위한 확장 가능한 오픈소스 다중 턴 오디오 전처리 파이프라인

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

코드 예제

소믈리에(Sommelier): 전이중 음성 언어 모델을 위한 확장 가능한 오픈소스 다중 턴 오디오 전처리 파이프라인

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

코드 예제

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드