단계별 평가
오디오를 먼저 텍스트 설명으로 변환한 뒤, LLM이 이 설명을 읽고 문제를 풀게 하는 평가 방식이다. 오디오 인코더의 성능과 LLM의 순수 추론 능력을 분리하여 측정하기 위해 사용된다.