텐센트 AI 랩, 7B 파라미터 엔드투엔드 오디오 언어 모델 'Covo-Audio' 공개

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존의 음성 인식(ASR), 언어 모델(LLM), 음성 합성(TTS)을 결합한 계층적 구조는 정보 손실과 지연 시간 문제가 발생하기 쉽다. Covo-Audio는 Whisper-large-v3 인코더와 Qwen2.5-7B 백본을 결합하여 연속적인 오디오 입력과 텍스트, 이산 오디오 토큰을 단일 아키텍처에서 통합 처리한다. MMAU 벤치마크에서 75.30%를 기록하며 7B 체급 모델 중 최고 수준의 성능을 보였으며, 전이중(Full-Duplex) 통신을 지원해 실시간 대화가 가능하다. 이 모델은 복잡한 오디오 추론과 개인화된 음성 커스터마이징이 필요한 차세대 보이스 에이전트 개발에 중요한 기반을 제공한다.

배경

LLM 아키텍처에 대한 기본 이해, 오디오 토큰화 및 인코딩 개념, 강화학습(RL) 기초 지식

대상 독자

음성 AI 및 실시간 대화형 에이전트를 개발하는 엔지니어 및 연구원

의미 / 영향

Covo-Audio는 7B라는 효율적인 규모로도 대형 모델에 필적하는 오디오 이해 및 추론 성능을 입증했다. 특히 전이중 통신과 지능-화자 분리 기술은 상용 보이스 에이전트의 사용자 경험을 혁신하고 개발 비용을 낮추는 데 기여할 것이다.

섹션별 상세

전통적인 파이프라인 방식의 한계를 극복하기 위해 오디오와 텍스트를 직접 결합한 엔드투엔드 아키텍처를 채택했다. Whisper-large-v3 인코더로 입력된 오디오를 어댑터를 통해 LLM 백본인 Qwen2.5-7B에 전달하며, WavLM 기반 토크나이저와 Flow-Matching 디코더로 고음질 음성을 생성한다. 별도의 음성 인식(ASR)이나 합성(TTS) 단계 없이 단일 모델 내에서 음성 이해와 생성이 동시에 이루어져 정보 손실을 최소화한다. 이러한 통합 구조는 시스템 복잡도를 낮추고 추론 효율성을 극대화하는 결과를 가져왔다.

계층적 삼중 모달 인터리빙(Hierarchical Tri-modal Interleaving) 전략을 통해 음향 특징, 이산 토큰, 텍스트 간의 정렬을 최적화했다. 구(phrase) 단위와 문장 단위의 인터리빙을 병행하여 세밀한 운율 표현과 전체적인 문맥의 일관성을 동시에 확보하는 방식을 사용한다. 2조 개의 토큰으로 구성된 2단계 사전 학습 과정을 거쳐 멀티모달 데이터 간의 강력한 연동을 구현했다. 이를 통해 모델은 텍스트의 의미론적 정보와 오디오의 음향적 특징을 유기적으로 결합하여 처리할 수 있다.

지능과 화자 특성을 분리하는 'Intelligence-Speaker Decoupling' 전략으로 적은 데이터로도 고품질 음성 커스터마이징이 가능하다. 고품질 TTS 데이터를 가상의 대화 형식으로 변환하고 텍스트 손실(loss)을 마스킹하여 모델의 추론 능력은 유지하면서 화자의 자연스러운 음성 특성만 학습하도록 설계했다. 이 방식은 대규모 대화 데이터 없이도 특정 화자의 목소리를 입힌 대화형 에이전트를 신속하게 구축할 수 있게 한다. 결과적으로 개인화된 음성 인터페이스 구축 비용을 획기적으로 절감하는 효과를 제공한다.

실시간 동시 대화가 가능한 전이중(Full-Duplex) 통신 기능을 Covo-Audio-Chat-FD 변형 모델을 통해 구현했다. THINK, SHIFT, BREAK와 같은 특수 토큰을 도입하여 모델이 듣기만 하는 상태, 발화 전환 시점, 사용자의 끼어들기(barge-in)를 지능적으로 감지하고 대응한다. 0.16초 단위의 청크 스트리밍 방식을 사용하여 지연 시간을 최소화하고 자연스러운 턴테이킹(turn-taking)을 지원한다. 이는 기존의 순차적 대화 방식에서 벗어나 실제 사람과 대화하는 듯한 즉각적인 반응성을 제공한다.

실무 Takeaway

ASR-LLM-TTS 계층 구조 대신 단일 아키텍처를 사용하여 정보 손실을 줄이고 오디오 추론의 정확도를 높일 수 있다.
특수 토큰(THINK/SHIFT/BREAK) 기반의 전이중 통신 설계를 통해 사용자 개입에 즉각 반응하는 실시간 보이스 에이전트 구현이 가능하다.
지능-화자 분리 학습 기법을 활용하면 방대한 대화 데이터 없이 소량의 TTS 샘플만으로도 특정 목소리를 가진 지능형 챗봇을 만들 수 있다.

언급된 리소스

논문Covo-Audio Paper

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

배경

LLM 아키텍처에 대한 기본 이해, 오디오 토큰화 및 인코딩 개념, 강화학습(RL) 기초 지식

대상 독자

음성 AI 및 실시간 대화형 에이전트를 개발하는 엔지니어 및 연구원

의미 / 영향

섹션별 상세

실무 Takeaway

ASR-LLM-TTS 계층 구조 대신 단일 아키텍처를 사용하여 정보 손실을 줄이고 오디오 추론의 정확도를 높일 수 있다.
특수 토큰(THINK/SHIFT/BREAK) 기반의 전이중 통신 설계를 통해 사용자 개입에 즉각 반응하는 실시간 보이스 에이전트 구현이 가능하다.
지능-화자 분리 학습 기법을 활용하면 방대한 대화 데이터 없이 소량의 TTS 샘플만으로도 특정 목소리를 가진 지능형 챗봇을 만들 수 있다.

언급된 리소스

논문Covo-Audio Paper

텐센트 AI 랩, 7B 파라미터 엔드투엔드 오디오 언어 모델 'Covo-Audio' 공개

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

텐센트 AI 랩, 7B 파라미터 엔드투엔드 오디오 언어 모델 'Covo-Audio' 공개

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드