말하는 대로 하세요: 지시 이행을 위한 음성 프롬프트 데이터셋

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 음성 AI 모델들은 주로 텍스트 명령어로만 성능을 측정해왔으나, 이는 실제 사용자가 말로 명령하는 상황을 반영하지 못한다. 이 연구는 실제 사람이 녹음한 11개 언어의 음성 프롬프트 데이터셋을 통해 모델이 말귀를 얼마나 잘 알아듣는지 정밀하게 평가할 수 있는 기준을 마련했다.

왜 중요한가

핵심 기여

DOWIS 데이터셋 구축

11개 언어, 9개 작업에 대해 10가지 스타일의 음성 및 텍스트 프롬프트 쌍을 포함하는 최초의 다국어 데이터셋을 구축했다.

프롬프트 스타일 다양화

기본, 공식, 비공식, 상세, 짧은 프롬프트 등 5가지 스타일을 정의하여 모델의 지시 이행 견고성을 다각도로 평가할 수 있게 했다.

SLLM 벤치마킹 분석

Phi-4 Multimodal 및 Qwen2.5-Omni 모델을 대상으로 음성 프롬프트가 모델 성능에 미치는 부정적 영향을 정량적으로 분석하여 텍스트 기반 평가의 낙관적 편향을 지적했다.

핵심 아이디어 이해하기

딥러닝 모델에서 텍스트는 정제된 토큰 단위로 입력되지만, 음성은 연속적인 파형 신호로 들어온다. SLLM은 이 파형에서 의미를 추출해 지시 사항을 파악해야 하는데, 배경 소음이나 화자의 말투 같은 변수가 섞이면 Attention 메커니즘이 핵심 지시어에 집중하지 못하고 엉뚱한 결과를 내놓기 쉽다. DOWIS는 동일한 명령을 텍스트와 음성으로 동시에 제공하여, 모델이 소리 신호를 처리할 때 발생하는 정보 손실과 지시 이행 실패의 원인을 명확히 분석할 수 있게 한다. 특히 비공식적이거나 짧은 구어체 표현이 모델의 내부 표현 공간에서 어떻게 혼란을 야기하는지 확인하는 기준점을 제공한다.

방법론

데이터 수집은 9가지 작업(ASR, TTS, ST 등)에 대해 전문가들이 작성한 기본 프롬프트를 바탕으로 5가지 스타일로 변형하여 진행했다. 11개 언어의 원어민 19명이 참여하여 총 3시간 17분 분량의 음성을 녹음했으며, 모든 오디오는 10ms 단위의 슬라이딩 윈도우를 이용한 VAD(Voice Activity Detection)를 통해 정제했다. 구체적으로 [오디오 신호 → 진폭 계산 → -40dBFS 기준 필터링 → 유효 구간 추출] 과정을 거쳐 무음 구간을 제거했다. 모델 평가는 ASR의 경우 WER을 사용하며, 번역 및 요약 작업에는 BERTScore를 적용하여 [생성 문장과 참조 문장의 임베딩 추출 → 코사인 유사도 계산 → 가중치 합산 → 의미적 유사도 점수]를 도출하는 방식을 채택했다.

주요 결과

텍스트 출력 작업(ASR, MT, ST 등)에서 텍스트 프롬프트는 음성 프롬프트보다 일관되게 높은 성능을 보였다. 특히 Phi 모델의 경우 ASR 작업에서 음성 프롬프트 사용 시 WER이 100을 초과하는 심각한 성능 저하가 관찰되었다. 반면 음성 출력 작업(TTS, S2ST)에서는 음성 프롬프트가 텍스트 프롬프트와 대등하거나 오히려 더 나은 결과를 보였다. 프롬프트 스타일별로는 비공식(Informal) 및 짧은(Short) 프롬프트에서 모델의 성능이 가장 낮게 나타났으며, 이는 모델이 정제되지 않은 구어체 지시 이행에 취약함을 시사한다.

기술 상세

DOWIS는 프롬프트를 작업 입력값과 분리하여 설계함으로써 기존의 어떤 벤치마크 데이터셋과도 결합할 수 있는 범용성을 확보했다. 이는 고정된 입력-지시 쌍을 사용하는 기존 방식보다 훨씬 유연한 평가 환경을 제공한다. 실험 결과, 모델은 정제된(Formal) 지시에는 잘 반응하지만 일상적인(Informal) 대화체 지시에는 취약함을 보였다. 또한 성별에 따른 성능 차이 분석을 통해 모델 내부의 화자 관련 편향성(Speaker Bias) 존재 가능성을 확인했으며, 이는 향후 모델 정렬 연구에서 중요한 고려 사항이 될 것임을 시사한다.

한계점

Phi 모델이 오디오 생성을 지원하지 않아 일부 음성 출력 작업 평가에서 제외되었으며, Qwen 모델 역시 영어 음성 생성만 지원하여 다국어 음성 출력 평가에 한계가 있음이 명시되었다.

실무 활용

SLLM 개발 시 실제 사용자의 구어체 명령에 대한 대응력을 테스트하고 개선하는 데 즉시 활용 가능하다.

음성 비서 서비스의 다국어 지시 이행 능력 검증
구어체 프롬프트에 강건한 SLLM 파인튜닝 데이터로 활용
다양한 억양 및 성별에 따른 모델 편향성 평가

코드 공개 여부: 공개

코드 저장소 보기

키워드

SLLM(음성 대형 언어 모델)Instruction Following(지시 이행)Multilingual Dataset(다국어 데이터셋)Prompt Modality(프롬프트 모달리티)Benchmarking(벤치마킹)