Sony AI, ICASSP 2026에서 음악 이해 및 오디오 생성 연구 11편 발표

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Sony AI는 ICASSP 2026에서 오디오 AI 시스템의 정밀도와 실용성을 높이기 위한 11편의 연구 결과를 공개했습니다. 이번 연구는 단순한 성능 향상을 넘어 모델이 음악의 구조와 가사 의미를 실제로 이해하고 있는지, 생성 도구가 창작 현장에서 즉각적으로 사용될 만큼 제어 가능하고 빠른지에 초점을 맞췄습니다. 특히 Whisper 임베딩을 활용한 가사 매칭 시스템 WEALY와 확산 모델 기반의 자동 믹싱 프레임워크 MEGAMI 등은 기존의 결정론적 접근 방식을 탈피하여 인간의 창의적 프로세스를 모사합니다. 또한 FoleyBench와 같은 새로운 벤치마크를 통해 기존 평가 지표의 왜곡을 바로잡고, 데이터 오염을 식별하는 Blind Data Cleaning 기법을 통해 학습 데이터의 신뢰성을 확보하려는 시도를 포함하고 있습니다. 이러한 연구들은 오디오 AI가 인간의 지각과 실제 음악 제작 환경에 더 밀접하게 다가가는 계기가 될 것으로 기대됩니다.

빠른 이해

요약 브리프

Sony AI가 ICASSP 2026에서 발표할 11편의 논문은 음악 이해, 실시간 생성, 시청각 정렬, 데이터 정제 기술을 포괄합니다. 특히 Whisper 임베딩을 활용한 가사 매칭과 75ms 속도의 실시간 사운드 생성 기술은 창작 현장의 실질적인 병목 현상을 해결하는 데 중점을 두고 있습니다.

새로운 점

기존의 단순 생성 성능 경쟁에서 벗어나, 음악의 구조적 이해와 실시간 제어 가능성, 그리고 인간의 지각과 일치하는 평가 지표 수립에 집중했습니다.

핵심 메커니즘

음악 신호 입력 → Whisper/Transformer 기반 특징 추출 → 확산 모델 또는 대조 학습을 통한 임베딩 매칭/생성 → 고품질 오디오/메타데이터 출력

핵심 수치

WEALY SHS MAP: 0.912- CLEWS 모델과 거리 수준 후기 융합 적용 시
Sample Identification Precision: +15% 향상- 기존 SOTA 대비 Mean Average Precision 기준
FlashFoley Latency: 75ms- 11초 스테레오 오디오 생성 기준
WSM VRAM Reduction: 40% 절감- 표준 셀프 어텐션 기반 파인튜닝 대비
Dubbing Quality Correlation: PCC 0.76- 인간의 MOS 평가와의 상관계수

섹션별 상세

음악 이해 및 구조 분석: WEALY와 샘플 식별

음악의 가사 정보와 샘플링 관계를 파악하기 위한 연구가 진행됐습니다. WEALY는 Whisper의 디코더 임베딩을 추출하여 별도의 텍스트 변환 없이 오디오에서 직접 가사 유사성을 식별하는 파이프라인을 구축했으며, SHS 데이터셋에서 0.912의 MAP를 달성했습니다. 자동 음악 샘플 식별 연구는 멀티트랙 데이터를 활용해 인위적인 믹스를 생성하여 학습시킴으로써, 기존 방식보다 평균 정밀도를 15% 향상시켰습니다. 특히 VQT 도메인에서 피치 및 템포 변환을 처리하여 계산 효율성을 높인 것이 특징입니다.

생성형 오디오 및 창의적 제작: MEGAMI와 FlashFoley

창작자를 위한 제어 가능한 생성 도구들이 소개됐습니다. MEGAMI는 음악 믹싱을 단순 회귀 문제가 아닌 조건부 분포 모델링으로 접근하여, 확산 모델을 통해 전문가 수준의 다양한 믹싱 결과물을 생성합니다. FlashFoley는 75ms라는 극도로 낮은 지연 시간으로 11초의 스테레오 오디오를 생성하며, 사용자의 스케치(피치, 볼륨 등)에 실시간으로 반응하는 기능을 갖췄습니다. 이러한 도구들은 AI가 단순 생성을 넘어 실시간 상호작용이 가능한 창작 파트너로 진화하고 있음을 보여줍니다.

시청각 정렬 및 평가: SAVGBench와 FoleyBench

오디오와 비디오의 공간적, 인과적 일치성을 평가하기 위한 새로운 기준이 마련됐습니다. SAVGBench는 소리의 발생 위치와 영상 속 객체의 위치가 일치하는지를 측정하는 최초의 벤치마크이며, FoleyBench는 기존 VGGSound 데이터셋의 74%가 시청각 대응이 부실하다는 점을 지적하며 5,000개의 정제된 데이터를 제공합니다. 또한 AI 더빙 콘텐츠에 대한 인간의 지각 품질을 예측하는 계층적 교차 모달 퓨전 아키텍처를 제안하여, 인간의 주관적 평가(MOS)와 0.75 이상의 높은 상관관계를 확보했습니다.

데이터 품질 및 음성 처리 효율화

학습 데이터의 오염을 해결하고 저사양 환경에서의 학습 효율을 높이는 연구가 포함됐습니다. Blind Data Cleaning 연구는 데이터의 오염 유형을 모르는 상태에서도 소량의 신뢰할 수 있는 샘플과 FAD 지표를 활용해 성능 저하 요인을 제거하며, 오염으로 인한 성능 격차의 66.7%를 해소했습니다. Windowed SummaryMixing(WSM) 기술은 기존 셀프 어텐션의 연산 복잡도를 선형적으로 줄이면서도 국소적 문맥 파악 능력을 유지하여, 음성 인식 모델 파인튜닝 시 VRAM 사용량을 40% 절감하는 성과를 거뒀습니다.

실무 Takeaway

MEGAMI의 확산 모델 기반 믹싱 방식은 단일 정답이 없는 예술적 영역에서 AI가 전문가의 다양한 의사결정 분포를 학습하여 실용적인 믹싱 대안을 제시할 수 있음을 입증했습니다.
FlashFoley의 75ms 추론 속도는 게임 오디오나 라이브 공연 등 실시간 상호작용이 필수적인 환경에서 AI 기반 사운드 디자인의 가능성을 열었습니다.
FoleyBench와 같은 정밀한 벤치마크 도입은 시청각 생성 모델이 단순히 소리를 만드는 수준을 넘어 영상 속 사건과 물리적으로 일치하는 고품질 오디오를 생성하도록 유도합니다.

언급된 리소스

문서원문 링크