빅 벤치 오디오
1,000개의 오디오 질문을 통해 AI 모델의 추론 능력을 평가하는 벤치마크 테스트이다. 모델이 단순히 소리를 생성하는 것을 넘어 오디오 컨텍스트를 얼마나 깊이 이해하고 논리적으로 사고하는지 측정한다.