본문으로 건너뛰기
HiMu: 긴 비디오 질의응답을 위한 계층적 멀티모달 프레임 선택 기술 | AI Trends