텍스트-음성 이해 간극
동일한 내용의 정보를 텍스트로 입력했을 때보다 음성으로 입력했을 때 LLM의 이해도나 추론 성능이 떨어지는 현상을 의미한다. 모달리티 간의 표현 방식 차이로 인해 발생한다.
음성 인식 LLM 성능 저하 문제, 10배 적은 데이터로 해결한 애플의 SALAD