거대 오디오 언어 모델
텍스트를 넘어 오디오 신호를 직접 처리하고 이해하는 멀티모달 모델이다. EVA 프레임워크에서는 에이전트가 생성한 음성 출력이 예약 번호나 금액 같은 핵심 정보를 오디오 레벨에서 정확히 전달했는지 판별하는 데 사용된다.