music-bench: LLM의 악보 인식(Musical OCR) 성능 측정을 위한 벤치마크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

music-bench는 LLM의 악보 인식(Musical OCR) 능력을 평가하기 위해 설계된 벤치마크 도구다. 현재 주요 멀티모달 모델들은 단일 오선지의 단순한 음표 나열조차 정확히 읽어내지 못하는 한계를 보인다. 테스트 결과 GPT-5.4는 8.3%, Claude Opus 4-6은 0%의 Exact Match 정확도를 기록하며 실무 적용이 어려운 수준임이 확인됐다. 이 벤치마크는 LilyPond를 활용해 데이터셋을 생성하며, 모델이 시각적 힌트에 의존하지 못하도록 대비 쌍(contrast pairs)을 생성하는 방식을 채택했다.

배경

Python 3, LilyPond (렌더링용)

대상 독자

멀티모달 LLM 성능을 연구하거나 음악 관련 AI 서비스를 개발하는 엔지니어

의미 / 영향

시각적 악보 데이터는 일반적인 이미지와 다른 구조적 이해를 요구하며, 현재의 범용 멀티모달 모델로는 해결하기 어려운 영역임이 입증됐다. 이는 특정 도메인에 특화된 시각적 추론 능력 강화의 필요성을 시사한다.

섹션별 상세

music-bench는 LLM의 악보 인식 능력을 측정하기 위해 개발된 벤치마크다. 현재는 단일 오선지의 단음 식별이라는 기초적인 단계로 구성되어 있으나, 모델들의 성능이 매우 낮아 더 복잡한 과제는 포함되지 않았다. 이는 최신 멀티모달 모델들이 악보라는 특수한 시각 언어를 해석하는 데 근본적인 어려움을 겪고 있음을 의미한다.

주요 상용 모델들을 대상으로 한 성능 평가에서 충격적인 결과가 나타났다. GPT-5.4는 Exact Match 8.3%, 평균 F1 0.3265를 기록했으며, Claude Opus 4-6은 단 하나의 테스트 케이스도 완벽히 맞추지 못해 0%의 정확도를 보였다. 이러한 수치는 현재의 범용 LLM이 악보 데이터를 처리하는 데 있어 신뢰할 수 없는 수준임을 입증한다.

데이터셋은 LilyPond 엔진을 통해 동적으로 생성되며 공정한 평가를 위한 장치를 포함한다. 특히 두 개의 거의 동일한 악보 이미지가 서로 다른 정답을 가지도록 설계된 대비 쌍(contrast pairs)을 생성하여 모델이 시각적 지름길을 통해 정답을 맞히는 것을 방지한다. 또한 dev, public_test, private_test로 데이터셋을 분리하여 모델 오염에 대응한다.

bash

python3 -m venv .venv && source .venv/bin/activate && pip install -e . && python -m music_bench generate --output-dir data/generated --dev-count 8 --public-test-count 16

가상 환경을 설정하고 music-bench 라이브러리를 설치한 뒤 테스트 데이터셋을 생성하는 과정

bash

brew install lilypond && python -m music_bench render --manifest data/generated/dev/manifest.jsonl

LilyPond를 설치하고 생성된 데이터셋의 악보 이미지를 렌더링하는 과정

구체적인 오답 사례 분석을 통해 모델의 취약점이 명확히 드러났다. F4, A4, F5 등의 음표가 포함된 마디에 대해 GPT-5.4는 옥타브나 음높이를 혼동했으며, Claude는 존재하지 않는 음표들을 대량으로 생성하는 환각 현상을 보였다. 이는 모델이 오선지 위의 수직적 위치와 수평적 순서를 정확한 음악적 정보로 변환하는 추론 능력이 부족함을 나타낸다.

F4, A4, F5, A4, G5 음표가 포함된 단일 마디 악보 이미지다. — Screenshot본문에서 GPT-5.4, Claude, Gemini 등 모든 테스트 모델이 오답을 낸 대표적인 사례로 나타났다. 모델들이 오선지 상의 음표 위치를 정확한 음이름과 옥타브로 변환하는 데 실패함을 시각적으로 증명한다.

실무 Takeaway

현재의 멀티모달 LLM은 악보 이미지 인식 능력이 매우 낮으므로 자동 채보나 음악 교육 서비스에 직접 활용하기에는 무리가 있다.
music-bench의 대비 쌍(contrast pairs) 생성 기법을 벤치마크 설계에 도입하면 모델의 단순 암기 여부를 효과적으로 검증할 수 있다.
LilyPond와 같은 외부 렌더링 엔진을 활용한 합성 데이터 생성 파이프라인은 특정 도메인의 시각적 추론 능력을 강화하는 학습 데이터 구축에 유용하다.

언급된 리소스

GitHubmusic-bench GitHub Repository