본문으로 건너뛰기
See What I Mean: 비디오의 미세 객체 이해를 위한 Vision-Language 표현 정렬 | AI Trends