TL;DR
AI 생성 음악 플랫폼의 급성장으로 전통적인 아티스트 평판 없이 오직 오디오 특성만으로 음악의 성공 가능성을 예측해야 하는 필요성이 커졌다. 이 논문은 음악의 미적 품질과 대중적 인기도가 서로 보완적인 관계임을 입증하며, AI 음악의 품질 평가와 추천 시스템 성능을 동시에 개선할 수 있는 기술적 토대를 마련했다.
왜 중요한가
AI 생성 음악 플랫폼의 급성장으로 전통적인 아티스트 평판 없이 오직 오디오 특성만으로 음악의 성공 가능성을 예측해야 하는 필요성이 커졌다. 이 논문은 음악의 미적 품질과 대중적 인기도가 서로 보완적인 관계임을 입증하며, AI 음악의 품질 평가와 추천 시스템 성능을 동시에 개선할 수 있는 기술적 토대를 마련했다.
핵심 기여
최초의 대규모 AI 생성 음악 전용 멀티태스크 학습 프레임워크
Suno와 Udio 플랫폼에서 수집한 211,000곡(약 10,000시간 분량)의 대규모 데이터를 활용하여 인기도와 미적 품질을 동시에 학습하는 APEX 모델을 구축했다.
미적 품질과 인기도 신호의 통합 모델링
재생 횟수(Streams) 및 좋아요(Likes)와 같은 참여도 기반 지표와 함께 일관성, 음악성, 기억 용이성 등 5가지 미적 차원을 결합하여 예측 성능을 강화했다.
강력한 제로샷 일반화 성능 입증
학습 과정에서 보지 못한 11개의 서로 다른 음악 생성 시스템 결과물에 대해서도 인간의 선호도를 정확하게 예측하며 높은 범용성을 보여주었다.
핵심 아이디어 이해하기
기존의 음악 인기도 예측은 아티스트의 유명세나 마케팅 지표에 크게 의존했으나, AI 생성 음악은 이러한 메타데이터가 부족하여 오디오 자체의 특징(Embedding)에만 집중해야 한다. 특히 음악이 대중에게 사랑받는 '인기도'와 음악 자체가 가진 '미적 품질'은 서로 밀접하지만 다른 차원의 정보라는 점에 착안했다.
APEX는 MERT라는 자기지도학습 모델을 통해 추출된 오디오 임베딩을 입력값으로 사용한다. MERT는 음악의 저수준 음향 특징부터 고수준의 음악적 구조까지 포착할 수 있는 Transformer 기반 인코더이다. 여기서 추출된 특징들을 여러 층의 공유 신경망(Shared FC layers)에 통과시켜 공통된 음악적 표현을 학습하게 한다.
이후 모델은 두 갈래로 나뉘어 하나는 실제 스트리밍 수치와 같은 '시장 반응'을 예측하고, 다른 하나는 전문가들이 평가한 '음악적 완성도'를 예측한다. 이 과정에서 불확실성 기반 가중치(Uncertainty-based weighting) 기법을 사용하여 서로 성격이 다른 두 작업 사이의 균형을 맞추며, 결과적으로 미적 품질 정보가 인기도 예측의 정확도를 높이는 보조 정보 역할을 수행하게 된다.
방법론
APEX는 MERT-v1-95M 모델을 고정된(Frozen) 특징 추출기로 사용한다. 30초 단위의 오디오 세그먼트를 입력으로 받아 4개의 중간 레이어(3, 6, 9, 12번 레이어)에서 숨겨진 상태(Hidden states)를 추출한다. 추출된 각 레이어의 768차원 벡터는 시간 축으로 평균 풀링된 후, 1D Convolution 레이어를 통해 학습 가능한 가중치로 결합되어 하나의 통합된 세그먼트 임베딩을 형성한다.
인기도 점수 산출을 위해 원본 스트리밍 횟수 p를 백분위 순위로 변환한 뒤 s = (p/100)^3.106 * 100 수식을 적용한다. [0~100 사이의 백분위 p를 입력으로] → [3.106 제곱 연산을 수행해] → [오른쪽으로 치우친 점수 s를 얻고] → [이 값은 상위권 곡들에게 더 높은 변별력을 부여하는 지표가 된다]. 좋아요 점수 역시 동일한 방식으로 정규화된다.
학습 시에는 세 가지 손실 함수 결합 전략을 비교했다. 특히 각 작업 i의 손실 Li에 대해 L_total = Σ (1/2σi²)Li + log σi 수식을 사용했다. [각 작업의 MSE 손실 Li와 학습 가능한 파라미터 σi를 입력으로] → [역분산 가중치와 로그 항을 더하는 연산을 수행해] → [통합 손실값을 얻고] → [모델이 스스로 각 작업의 불확실성을 판단하여 학습 기여도를 자동 조절하게 한다].
관련 Figure

오디오 입력이 MERT 인코더를 거쳐 공유 레이어를 통과한 후, 인기도(Streams, Likes)와 5가지 미적 지표(Musicality, Coherence 등)를 동시에 예측하는 구조를 보여준다. 각 태스크 헤드에서 계산된 손실이 하나로 결합되어 모델을 학습시키는 과정을 시각화했다.
APEX 모델의 전체적인 멀티태스크 학습 아키텍처 다이어그램
주요 결과
Ablation study 결과, 모든 세그먼트의 임베딩을 평균 내어 사용하는 'Song mode'가 개별 세그먼트별로 학습하는 방식보다 우수한 성능을 보였다. 특히 불확실성 기반 가중치를 적용한 모델 C가 가장 낮은 오차(MSE)와 높은 상관관계(Pearson r=0.35, Spearman rho=0.35)를 기록하며 최적의 설정임을 확인했다.
미적 품질 예측 실험에서 Coherence(0.734), Naturalness(0.751) 등 모든 차원에서 0.7 이상의 높은 Pearson 상관관계를 달성했다. 이는 MERT 임베딩이 AI 생성 음악의 미세한 품질 차이를 매우 효과적으로 포착하고 있음을 시사한다.
Music Arena 데이터셋을 활용한 인간 선호도 예측(Out-of-distribution) 실험에서, 미적 특징을 포함한 모델이 포함하지 않은 모델보다 일관되게 높은 성능을 보였다. SVM 분류기 기준 AUC 0.642를 기록하며, 학습 데이터에 포함되지 않은 새로운 생성 모델의 결과물에 대해서도 인간의 선호도를 유의미하게 예측해냈다.
기술 상세
APEX 아키텍처는 MERT 인코더 상단에 2~3개의 공유 완전 연결 계층(Shared FC layers)을 배치하고, 그 뒤에 각 태스크별 전용 헤드(Task-specific heads)를 연결한 구조이다. 공유 계층은 768 → 512 → 384 → 256 차원으로 점진적으로 축소되며, 각 헤드는 256 → 128 → 64 → 1 구조를 가진다. 모든 레이어에는 Batch Normalization과 GELU 활성화 함수, 0.3의 드롭아웃이 적용되었다.
학습 데이터셋은 Udio와 Suno에서 각각 약 124k곡을 추출하여 구성했으며, 스트리밍 분포를 유지하기 위해 층화 추출(Stratified sampling)을 적용했다. 총 211k곡의 학습 데이터는 약 10,000시간의 오디오 분량에 해당하며, 이는 AI 생성 음악 분야에서 공개된 연구 중 최대 규모 수준이다.
모델의 범용성을 검증하기 위해 사용된 Music Arena 데이터셋은 11개의 서로 다른 생성 시스템(Riffusion, MusicGen 등)에서 생성된 곡들 간의 1,259개 인간 선호도 배틀 결과를 포함한다. APEX는 이 데이터셋에 대해 별도의 파인튜닝 없이 제로샷 성능을 측정함으로써 표현 학습의 견고함을 증명했다.
한계점
보컬이 포함된 트랙의 경우 보컬 아티팩트(Artifacts)로 인해 미적 품질 예측의 정확도가 연주곡(Instrumental) 대비 낮게 나타나는 한계가 있다. 향후 연구에서는 보컬 전용 모델링을 통해 이 간극을 메울 필요가 있음을 명시했다.
실무 활용
AI 음악 생성 플랫폼에서 생성된 수많은 곡 중 품질이 우수한 곡을 자동으로 선별하거나 사용자에게 추천하는 시스템의 핵심 엔진으로 활용 가능하다.
- AI 음악 플랫폼(Suno, Udio 등)의 실시간 품질 검수 및 큐레이션 자동화
- 인간 선호도 데이터를 활용한 직접 선호도 최적화(DPO) 학습의 보상 모델(Reward Model)로 활용
- 음악 스트리밍 서비스의 신곡 인기도 예측 및 마케팅 우선순위 결정 보조
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.