본문으로 건너뛰기
대규모 시각-언어 모델의 시각적 접지를 위해 필요한 것은 단 몇 개의 어텐션 헤드뿐이다 | AI Trends