PianoCoRe: 결합 및 정제된 피아노 MIDI 데이터셋

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

기존 피아노 MIDI 데이터셋은 작곡가 범위가 좁거나 악보와 연주 간의 음표 단위 정렬이 부족해 고품질 연주 모델 학습에 한계가 있었다. PianoCoRe는 2만 시간 이상의 방대한 연주 데이터를 통합하고 정밀한 정렬 알고리즘을 적용해 차세대 음악 생성 및 분석 연구를 위한 표준 기반을 제공한다.

왜 중요한가

기존 피아노 MIDI 데이터셋은 작곡가 범위가 좁거나 악보와 연주 간의 음표 단위 정렬이 부족해 고품질 연주 모델 학습에 한계가 있었다. PianoCoRe는 2만 시간 이상의 방대한 연주 데이터를 통합하고 정밀한 정렬 알고리즘을 적용해 차세대 음악 생성 및 분석 연구를 위한 표준 기반을 제공한다.

핵심 기여

대규모 통합 피아노 MIDI 코퍼스 구축

여러 오픈소스 소스를 통합하여 483명의 작곡가, 5,625개의 작품, 총 21,763시간 분량의 250,046개 연주 데이터를 포함하는 단일화된 데이터셋을 구축했다.

RAScoP 정렬 정제 파이프라인 개발

시간적 정렬 오류를 제거하고 누락된 음표를 보간하여 악보와 연주를 동기화하는 4단계 정제 프로세스를 통해 데이터의 정밀도를 높였다.

MIDI 품질 분류기 도입

8천만 개의 파라미터를 가진 Transformer 기반 인코더를 활용해 손상된 데이터나 표현력이 없는 단순 악보 형태의 MIDI를 식별하고 필터링하는 분류기를 제안했다.

핵심 아이디어 이해하기

음악 정보 검색(MIR)에서 악보(Score)는 작곡가의 의도를 담은 설계도이며, 연주(Performance)는 연주자의 해석이 가미된 결과물이다. 딥러닝 모델이 인간의 연주 스타일을 학습하려면 악보의 특정 음표가 실제 연주에서 언제, 어떤 강도로 눌렸는지 연결하는 '음표 단위 정렬(Note-level alignment)'이 필수적이다. 기존에는 자동 채보(AMT) 기술로 데이터를 늘렸으나, 이 과정에서 발생하는 시간적 오차와 누락된 음표들이 학습 데이터의 노이즈로 작용하는 한계가 있었다.

PianoCoRe는 이러한 노이즈를 해결하기 위해 '정렬 구멍(Alignment Hole)' 개념을 도입한다. 이는 악보와 연주 사이의 연결이 끊기거나 비정상적인 구간을 탐지하여 제거하는 방식이다. 이후 Dynamic Time Warping(DTW)으로 정렬된 기초 데이터를 바탕으로, 국소적인 템포 변화를 분석하여 튀는 음표들을 제자리로 옮기고 연주에서 빠진 음표를 주변 맥락에 맞춰 채워 넣는다.

결과적으로 모델은 단순히 많은 양의 데이터를 보는 것을 넘어, 악보라는 기준점 위에서 연주자가 의도한 미세한 박자 변화와 강약 조절을 정확하게 학습할 수 있게 된다. 이는 생성된 음악이 기계적인 느낌을 벗어나 실제 사람이 연주하는 듯한 자연스러운 표현력을 갖추게 만드는 핵심 원동력이 된다.

방법론

데이터셋 구축은 Core Structure 구축, 악보 추가, 연주 추가의 3단계 반복 프로세스로 진행된다. 먼저 ASAP와 ATEPP 데이터셋을 통합하고, PDMX 및 MuseScore 등에서 수집한 공공 도메인 악보를 매칭하여 기반을 다진 후 GiantMIDI-Piano, Aria-MIDI 등의 대규모 전사 데이터를 결합한다.

RAScoP(Refined Alignment for Scores and Performances) 파이프라인은 네 단계로 작동한다. (1) Alignment Hole Processing: 슬라이딩 윈도우 내 미정렬 음표 비율 Ha = (미정렬 음표 수 / 윈도우 크기 Hw)를 계산하여 Hr=0.75를 초과하면 해당 구간을 제거한다. (2) Onset Cleaning: 각 화음의 평균 연주 시간 t(oi)를 기준으로 표준편차의 2배를 벗어나는 음표를 이상치로 판단해 조정한다. (3) Note Interpolation: 누락된 음표 ni의 시작 시간 t(ni)를 인접한 두 연주 음표 nj, nk 사이에서 선형 보간하여 생성한다. (4) Synchronization: 악보의 비트 구조와 연주의 시간 축을 일치시켜 최종적인 정렬 파일을 생성한다.

MIDI 품질 분류기는 12레이어 Transformer 인코더 구조를 사용한다. 음고(Pitch), 시간 이동(TimeShift), 벨로시티(Velocity), 지속 시간(Duration), 절대 시간 위치(Time Position)의 5가지 특징을 입력받아 [CLS] 토큰을 통해 Score, High Quality, Low Quality, Corrupted의 4개 클래스로 분류한다. 학습 시에는 80M 파라미터 모델을 Aria-MIDI 데이터셋으로 사전 학습한 후 정제된 데이터로 미세 조정했다.

주요 결과

실험 결과, RAScoP 정제 과정을 거친 PianoCoRe-A 데이터셋은 원본 데이터 대비 인터-온셋(inter-onset) 편차의 표준편차가 0.0063s에서 0.0062s로 감소하며 시간적 일관성이 향상됐다. 특히 템포 이상치(Outliers)가 제거되어 비트당 템포 분포가 음악적으로 타당한 범위 내로 집중되는 효과를 확인했다.

표현력 있는 연주 렌더링 모델인 PianoFlow를 활용한 하위 작업 평가에서, PianoCoRe-A로 학습한 모델은 소규모 고품질 데이터셋(ASAP)만 사용했을 때보다 검증 손실(Validation Loss)이 안정적으로 낮게 유지됐다. 특히 벨로시티와 타임시프트 예측에서 각각 8.613, 0.016의 낮은 오차를 기록하며 대규모 정제 데이터의 우수성을 입증했다.

MIDI 품질 분류기는 테스트 세트에서 89.1%의 macro F1 스코어를 달성했다. 특히 악보 형태의 데이터(Score)를 1.000의 정확도로 완벽하게 구분해냈으며, 심하게 손상된 데이터(Corrupted) 역시 0.946의 높은 성능으로 필터링하여 데이터셋의 순도를 보장했다.

기술 상세

PianoCoRe는 법적 지속 가능성을 위해 유럽 연합 공공 도메인 저작물로 콘텐츠를 제한했다. 데이터셋은 PianoCoRe-C(전체), B(중복 제거 및 품질 평가 완료), A(음표 정렬 완료), A*(최고 품질 정렬)의 계층적 구조로 배포된다. 정렬 알고리즘 RAScoP은 Numba JIT 컴파일을 통해 최적화되어 기존 대비 12배 빠른 처리 속도를 구현했다. MIDI 인코더는 Rotary Positional Embeddings(RoPE)를 적용하여 긴 시퀀스에 대한 문맥 파악 능력을 높였으며, 실수 값 특징 처리를 위해 Sinusoidal Embeddings를 채택하여 정보 손실 없는 인코딩을 수행한다.

한계점

데이터셋 분포가 서구 고전 음악과 유명 작곡가 위주로 편향되어 있으며, MusicXML 악보 자체의 오류가 정렬 과정에 전파될 가능성이 존재한다. 또한 현재의 음표 보간 방식은 서스테인 페달 효과를 완벽하게 처리하지 못한다는 한계가 명시되어 있다.

실무 활용

음악 생성 AI 개발자나 음악 정보 검색 연구자가 즉시 활용할 수 있는 고정밀 MIDI 데이터셋과 정제 도구를 제공한다.

악보를 입력하면 사람처럼 연주하는 Expressive Performance Rendering 모델 학습
대규모 MIDI 데이터를 활용한 음악 언어 모델(Music LM)의 사전 학습(Pre-training)
자동 채보(AMT) 시스템의 성능 평가를 위한 정밀 정렬 그라운드 트루스(Ground Truth)로 활용
작곡가별 연주 스타일 분석 및 음악 교육용 피드백 시스템 개발

코드 공개 여부: 공개

코드 저장소 보기

키워드

MIDI(미디)MIR(음악 정보 검색)Note-level Alignment(음표 단위 정렬)Expressive Rendering(표현력 있는 렌더링)Dataset(데이터셋)