본문으로 건너뛰기
시각이 소리에 말을 건네다: 영상-capable 다중모달 모델의 음향-시각 정합에 대한 THUD 진단과 정렬 | AI Trends