핵심 요약
기존 오디오 추론 모델은 정답 여부만 따지는 RLVR 방식에 의존하여 답변이 기계적이고 감정이 없는 '검증 가능한 보상 함정'에 빠지는 문제가 있었다. 이 논문은 오디오 모델 최초로 RLHF를 도입하여 논리적 추론 능력을 유지하면서도 인간처럼 자연스럽고 감정이 풍부한 대화 성능을 확보하는 새로운 학습 패러다임을 제시한다.
왜 중요한가
기존 오디오 추론 모델은 정답 여부만 따지는 RLVR 방식에 의존하여 답변이 기계적이고 감정이 없는 '검증 가능한 보상 함정'에 빠지는 문제가 있었다. 이 논문은 오디오 모델 최초로 RLHF를 도입하여 논리적 추론 능력을 유지하면서도 인간처럼 자연스럽고 감정이 풍부한 대화 성능을 확보하는 새로운 학습 패러다임을 제시한다.
핵심 기여
검증 가능한 보상 함정(Verifiable Reward Trap) 식별
RLVR 최적화가 모델을 단순히 텍스트 레이블 생성기로 전락시켜 오디오의 운율, 감정 연속성, 대화의 자연스러움을 훼손한다는 한계를 정의했다.
오디오 추론을 위한 RLHF 체계 통합
이진화된 정답 신호 대신 인간의 선호도를 반영한 Reward Model을 활용해 모델이 '무엇을 말할지'뿐만 아니라 '어떻게 말할지'를 학습하도록 설계했다.
Step-Audio-R1.5 아키텍처 및 학습 파이프라인
Qwen2 오디오 인코더와 Qwen2.5 32B LLM을 결합하고, Audio-Centric Mid-training 및 Cold-start SFT를 거쳐 다회차 대화 능력을 극대화했다.
핵심 아이디어 이해하기
기존의 오디오 Chain-of-Thought(CoT) 모델은 수학 문제 풀이처럼 결과값이 명확한 데이터로만 강화학습(RLVR)을 진행했다. 이 과정에서 모델은 정답 텍스트를 맞추는 데만 집중하게 되어, 실제 음성 대화에서 중요한 요소인 목소리의 톤, 감정, 대화의 흐름과 같은 연속적인 오디오 정보를 무시하고 딱딱한 답변만 내놓는 부작용이 발생했다.
Step-Audio-R1.5는 이 문제를 해결하기 위해 인간의 피드백을 직접 보상 신호로 사용하는 RLHF를 도입했다. 단순히 정답 여부만 판단하는 것이 아니라, 두 가지 답변 중 어떤 것이 더 자연스럽고 감정적으로 풍부한지를 인간이 평가한 데이터를 학습에 활용한다. 이를 통해 모델은 논리적인 추론 과정을 거치면서도 최종 출력에서는 인간다운 대화 품질을 유지할 수 있게 된다.
결과적으로 모델은 복잡한 오디오 정보를 텍스트라는 좁은 틀에 억지로 끼워 맞추는 'answering machine' 단계에서 벗어나, 사용자의 의도와 감정적 맥락을 이해하고 반응하는 진정한 오디오 지능으로 진화했다. 이는 다회차 대화(Multi-turn) 환경에서 특히 강력한 몰입감을 제공한다.
방법론
전체 시스템은 Qwen2 오디오 인코더, 오디오 어댑터, Qwen2.5 32B LLM 디코더로 구성된다. 오디오 인코더는 25Hz 프레임 레이트로 작동하며, 어댑터는 이를 2배 다운샘플링하여 12.5Hz의 잠재 표현으로 변환한다. [오디오 신호 입력 → 25Hz 인코딩 → 2:1 다운샘플링 → 12.5Hz 토큰 생성] 과정을 통해 긴 대화 시퀀스에서도 연산 효율성을 유지한다.
학습은 세 단계로 진행된다. 첫째, Audio-Centric Mid-training 단계에서는 오디오 기반 추론 데이터와 텍스트 전용 데이터를 혼합하여 기초적인 추론 능력을 배양한다. 둘째, Cold-start SFT 단계에서는 다회차 대화의 연속성과 지시 이행 능력을 초기화한다. 셋째, RLHF 단계에서는 Rubric-based Generated Reward Model을 사용하여 인간의 선호도를 반영한 PPO 최적화를 수행한다.
Reward Model은 두 답변 y와 y_ref를 입력받아 루브릭(c) 조건에 따른 상대적 품질 판단(g)을 수행한다. [두 답변 쌍 입력 → 루브릭 기반 비교 연산 → 상대적 우위 판단 g 출력 → 스칼라 보상 r로 매핑] 과정을 거쳐 모델의 정책을 업데이트한다. 이는 단순히 맞고 틀림을 넘어 대화의 유창성과 감정적 공명까지 최적화 지표에 포함시킨다.
주요 결과
Step-Audio-R1.5는 8개의 주요 Speech-to-Text 벤치마크에서 평균 77.97점을 기록하며, 이전 모델인 Step-Audio-R1(72.50점) 대비 5.47점의 성능 향상을 보였다. 특히 다회차 대화 능력을 측정하는 AudioMultiChallenge 벤치마크에서 41.15점을 기록하여 대규모 상용 모델인 Gemini 3 Pro(66.37점)에 이어 두 번째로 높은 성능을 달성했다.
세부 지표인 Step-DU(대화 이해)에서는 +18.39점, Step-SPQA(운율 분석)에서는 +5.04점의 비약적인 상승을 기록했다. 이는 RLHF를 통한 정렬이 단순한 정확도 향상을 넘어 오디오의 미세한 특징(성별, 연령, 말하기 속도, 감정 등)을 파악하고 설명하는 능력을 실질적으로 강화했음을 입증한다.
관련 Figure

Step-Audio-R1.5가 77.97점을 기록하며 Gemini 3 Pro에 이어 전체 2위를 차지했음을 보여준다. 특히 이전 버전인 Step-Audio-R1(72.50점)보다 크게 개선되었으며, Qwen3.5-Omni 시리즈보다 높은 성능을 입증하여 RLHF 도입의 효과를 수치로 증명한다.
8개 Speech-to-Text 벤치마크에 대한 주요 모델들의 평균 성능 비교 차트
기술 상세
Step-Audio-R1.5는 오디오 CoT의 고질적 문제인 'verifiable reward trap'을 해결하기 위해 RLVR과 RLHF를 상호보완적으로 결합했다. 아키텍처 측면에서는 Qwen2.5 32B를 백본으로 사용하며, 추론 과정에서 내부적인 추론 흔적(Reasoning traces)을 먼저 생성한 후 최종 응답을 출력하는 구조를 채택하여 분석적 엄밀성을 확보했다.
학습 전략에서 주목할 점은 Mid-training 시 오디오와 텍스트 데이터를 통합한 통합 목적 함수(Unified objective)를 사용했다는 것이다. 이는 텍스트 도메인의 강력한 논리 추론 능력을 오디오 도메인으로 전이시키는 역할을 한다. 또한 RLHF 과정에서 PPO 알고리즘을 적용할 때, KL Divergence를 통해 기준 정책(Reference policy)으로부터 과도하게 벗어나는 것을 방지하여 학습의 안정성을 높였다.
한계점
본 보고서는 RLVR의 한계를 극복하는 데 집중하고 있으나, 32B 파라미터 규모로 인해 모바일 기기 등에서의 온디바이스 실시간 추론 시 발생할 수 있는 지연 시간이나 자원 소모에 대한 구체적인 최적화 방안은 명시하지 않았다.
실무 활용
실제 사람과 대화하는 듯한 자연스러운 음성 비서나 고도의 오디오 분석 도구 개발에 즉시 활용 가능하다.
- 감정 표현이 풍부하고 맥락 유지가 뛰어난 차세대 AI 음성 비서
- 복잡한 오디오 환경(소음, 끼어들기 등)에서의 정밀한 다회차 음성 상담 시스템
- 화자의 감정 상태와 운율적 특징을 상세히 분석해야 하는 심리 상담 및 교육 도구
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.