본문으로 건너뛰기
오디오-비주얼 정합 (audio-visual grounding) 용어 설명 | AI Trends