Audio Flamingo Next: 음성, 소리, 음악을 위한 차세대 개방형 오디오-언어 모델

기존 오디오 모델들이 짧은 클립 처리에 국한되었던 한계를 극복하고, 최대 30분의 긴 오디오를 이해하며 시간 정보를 바탕으로 논리적 추론을 수행할 수 있는 기술적 토대를 마련했다. 100만 시간 이상의 대규모 데이터셋과 새로운 추론 패러다임을 통해 오픈소스 오디오 AI의 성능을 폐쇄형 모델 수준으로 끌어올렸다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

Temporal Audio Chain-of-Thought 도입

오디오 내의 특정 타임스탬프와 중간 추론 단계를 명시적으로 연결하는 새로운 추론 패러다임을 제안하여 긴 오디오에 대한 이해도와 해석 가능성을 높였다.

100만 시간 이상의 대규모 오디오 데이터셋 구축

인터넷 규모의 데이터를 큐레이션하여 AudioSkills-XL, LongAudio-XL, AF-Think 등 기존 데이터셋을 대폭 확장하고 복잡한 실제 환경의 오디오 대응 능력을 강화했다.

최대 30분 길이의 장기 컨텍스트 지원

슬라이딩 윈도우 특징 추출과 하이브리드 시퀀스 병렬화 기법을 통해 기존 모델들이 처리하기 어려웠던 30분 분량의 긴 오디오 입력을 안정적으로 처리한다.

4단계 커리큘럼 학습 전략 수립

Pre-training부터 GRPO 기반의 강화학습을 포함한 Post-training까지 단계별로 데이터 혼합비와 컨텍스트 길이를 늘려가는 체계적인 학습 레시피를 개발했다.

관련 Figure

#2Infographic
모델이 단순히 텍스트를 생성하는 것을 넘어 타임스탬프(<t> 태그)를 활용해 오디오의 특정 구간을 지칭하며 추론하는 과정을 시각화한다. AF-Think-Time 섹션은 모델이 내부적으로 사고 과정을 거쳐 정답을 도출하는 메커니즘을 잘 보여준다.
장기 오디오 QA, 타임스탬프 기반 화자 분리, 안전성 미세 조정 등 AF-Next가 처리하는 다양한 데이터 유형의 예시이다.

핵심 아이디어 이해하기

기존의 Large Audio Language Model(LALM)은 주로 짧은 오디오 클립과 텍스트 쌍으로 학습되어, 긴 오디오에서 발생하는 복잡한 사건의 흐름이나 미세한 시간적 변화를 추론하는 데 한계가 있었다. 특히 Transformer 아키텍처에서 시퀀스 길이가 길어질수록 Attention 연산 비용이 제곱으로 증가하는 문제는 장시간 오디오 처리를 가로막는 주요 기술적 장벽이었다.

AF-Next는 이를 해결하기 위해 Rotary Time Embeddings(RoTE)를 도입하여 절대적 타임스탬프 정보를 토큰 위치 정보에 직접 주입한다. 이는 모델이 오디오 내의 특정 시점을 이산적인 인덱스가 아닌 연속적인 시간 개념으로 인식하게 하여, 긴 시퀀스에서도 시간적 정렬을 유지할 수 있게 한다. 또한 하이브리드 시퀀스 병렬화(Hybrid Sequence Parallelism)를 통해 메모리 부하를 여러 GPU에 분산시켜 128k 토큰에 달하는 긴 컨텍스트를 효율적으로 처리한다.

결과적으로 모델은 단순히 소리를 분류하는 수준을 넘어, '음악의 리듬이 빨라지는 정확한 시점'이나 '대화 중 특정 정보가 언급된 위치'를 논리적으로 추론(Chain-of-Thought)할 수 있게 된다. 이는 오디오 이해를 정적인 특징 추출에서 동적인 시간 흐름의 분석으로 전환시킨 결과이다.

방법론

AF-Next의 아키텍처는 Whisper 기반의 오디오 인코더, 2계층 MLP 구조의 오디오 어댑터, 그리고 Qwen-2.5-7B를 백본으로 하는 LLM으로 구성된다. 오디오 입력은 16kHz로 리샘플링된 후 128채널 로그 멜-스펙트로그램으로 변환되며, AF-Whisper를 통해 30초 단위의 비중첩 청크로 처리되어 특징 벡터를 생성한다.

학습은 4단계 커리큘럼을 따른다. Stage 1(Pre-training)에서는 오디오 어댑터만 학습하여 정렬을 수행하고, Stage 2에서는 인코더와 어댑터를 미세 조정한다. 이후 Mid-training 단계에서 컨텍스트 길이를 32k에서 128k로 확장하며 대규모 데이터셋으로 전체 파라미터를 학습시킨다. 마지막으로 GRPO(Group Relative Policy Optimization) 기반의 강화학습을 통해 추론 능력을 극대화한다.

긴 시퀀스 처리를 위해 Sequence Packing 전략을 사용한다. [배치 내 시퀀스 길이 분포 확인 → 최대 길이에 맞춰 패딩 및 마스킹 생성 → 오디오 토큰 확장] 과정을 거쳐 가변적인 오디오 길이에 대응한다. 또한 Unified Sequence Parallelism(USP)을 적용하여 Ulysses 병렬화와 Ring 병렬화를 조합함으로써 GPU 간 통신 효율을 최적화하고 대규모 연산을 수행한다.

관련 Figure

#3Diagram
Pre-training부터 CoT-training까지 이어지는 4단계 커리큘럼과 GPU 간의 All-to-All 통신을 통한 병렬 처리 구조를 상세히 설명한다. RoTE가 타임스탬프 정보를 어떻게 특징 벡터에 결합하는지도 구조적으로 나타나 있다.
AF-Next의 전체 학습 파이프라인과 아키텍처, 그리고 시퀀스 병렬화 및 RoTE의 개념도이다.

주요 결과

AF-Next는 20개 이상의 오디오 이해 및 추론 벤치마크에서 기존 SOTA 모델들을 압도하는 성과를 거두었다. MMAU-v05.15.25 테스트에서 평균 75.76%의 정확도를 기록하여 Audio Flamingo 3(72.42%)를 넘어섰으며, 특히 음악(75.3%)과 음성(72.13%) 영역에서 큰 폭의 개선을 보였다. LongAudioBench에서는 73.9점을 기록하여 Gemini-2.5-Pro(60.4)와 같은 폐쇄형 모델보다 높은 성능을 입증했다.

음성 인식(ASR) 분야에서도 LibriSpeech test-clean 기준 1.54%의 WER(Word Error Rate)을 달성하여 오픈소스 모델 중 최고 수준의 정확도를 확보했다. 다국어 성능 또한 향상되어 CoVoST2 벤치마크의 영어-중국어 번역에서 38.2 BLEU를 기록하는 등 저리소스 언어에 대한 대응력도 강화되었음이 확인되었다.

관련 Figure

#1Chart
AF-Next가 MMAU, MMAR, Libri, LongSpeechBench 등 거의 모든 지표에서 이전 모델들을 능가하고 있음을 보여준다. 특히 LongSpeechBench와 MuchoMusic에서의 큰 격차는 긴 오디오와 음악 이해 능력이 비약적으로 향상되었음을 시사한다.
AF-Next와 이전 SOTA 모델들의 주요 벤치마크 성능을 비교한 레이더 차트이다.

기술 상세

AF-Next의 핵심은 Rotary Time Embeddings(RoTE)의 구현이다. 기존 RoPE가 토큰의 순서 i에 따라 회전각을 결정하는 것과 달리, RoTE는 실제 시간 τi를 입력으로 받아 θ = -τi · 2π 연산을 수행한다. 이를 통해 오디오 샘플링 레이트와 무관하게 절대적인 시간 축 위에서 토큰 간의 상대적 거리를 보존하며, 이는 장기 의존성(Long-term dependency) 학습에 결정적인 역할을 한다.

데이터 큐레이션 측면에서는 에이전틱 웹 검색(Agentic Web Search)을 활용하여 20만 개 이상의 고품질 롱폼 비디오를 수집했다. 각 비디오는 10초 단위 세그먼트로 나누어 캡션, 전사, 파라언어적 설명을 생성한 뒤 LLM을 통해 하나의 일관된 긴 캡션으로 통합하는 파이프라인을 구축했다. 이 과정에서 정보량 점수(Informativeness score)를 기반으로 학습 데이터를 선별하여 데이터의 질을 높였다.

추론 단계에서는 AF-Next-Think 변종을 통해 사고 사슬(Thinking traces)을 생성한다. 모델은 최종 답변을 내놓기 전 태그 내에서 오디오의 시간대별 특징을 분석하고 증거를 수집하는 과정을 거친다. 이는 복잡한 다단계 추론이 필요한 질문에서 할루시네이션을 줄이고 정확도를 높이는 핵심 메커니즘으로 작용한다.

한계점

인터넷 규모의 데이터를 사용함에 따라 저리소스 언어나 희귀한 음향 사건에 대한 데이터 분포가 불균형하며, 노이즈가 포함된 데이터의 영향이 존재한다. 또한 30분 이상의 초장기 컨텍스트에서 멀리 떨어진 증거들을 통합하는 능력은 여전히 개선의 여지가 남아 있다.

실무 활용

AF-Next는 긴 오디오 파일의 요약, 특정 사건 탐색, 정밀한 캡셔닝 등 실무적인 오디오 분석 작업에 즉시 활용 가능하다.

최대 30분 분량의 회의록이나 팟캐스트에서 특정 발화자의 발언 시점과 내용 자동 추출
복잡한 배경음과 효과음이 섞인 영상 콘텐츠의 정밀한 시간 기반 오디오 설명(Audio Description) 생성
다국어 음성 데이터의 실시간 번역 및 화자 분리(Diarization)를 포함한 전사 서비스
음악 콘텐츠 내의 리듬 변화나 악기 구성을 분석하는 음악 정보 검색(MIR) 시스템

코드 공개 여부: 공개

키워드

LALM(대형 오디오 언어 모델)Temporal-CoT(시간 기반 사고 사슬)RoTE(로터리 시간 임베딩)Long-form Audio(장기 오디오 이해)Curriculum Learning(커리큘럼 학습)

Audio Flamingo Next: 음성, 소리, 음악을 위한 차세대 개방형 오디오-언어 모델

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

Temporal Audio Chain-of-Thought 도입

100만 시간 이상의 대규모 오디오 데이터셋 구축

최대 30분 길이의 장기 컨텍스트 지원

4단계 커리큘럼 학습 전략 수립

Pre-training부터 GRPO 기반의 강화학습을 포함한 Post-training까지 단계별로 데이터 혼합비와 컨텍스트 길이를 늘려가는 체계적인 학습 레시피를 개발했다.

관련 Figure

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

AF-Next는 긴 오디오 파일의 요약, 특정 사건 탐색, 정밀한 캡셔닝 등 실무적인 오디오 분석 작업에 즉시 활용 가능하다.

최대 30분 분량의 회의록이나 팟캐스트에서 특정 발화자의 발언 시점과 내용 자동 추출
복잡한 배경음과 효과음이 섞인 영상 콘텐츠의 정밀한 시간 기반 오디오 설명(Audio Description) 생성
다국어 음성 데이터의 실시간 번역 및 화자 분리(Diarization)를 포함한 전사 서비스
음악 콘텐츠 내의 리듬 변화나 악기 구성을 분석하는 음악 정보 검색(MIR) 시스템

코드 공개 여부: 공개

키워드

LALM(대형 오디오 언어 모델)Temporal-CoT(시간 기반 사고 사슬)RoTE(로터리 시간 임베딩)Long-form Audio(장기 오디오 이해)Curriculum Learning(커리큘럼 학습)

Audio Flamingo Next: 음성, 소리, 음악을 위한 차세대 개방형 오디오-언어 모델

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

Audio Flamingo Next: 음성, 소리, 음악을 위한 차세대 개방형 오디오-언어 모델

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드