본문으로 건너뛰기
VLM은 단어가 필요하다: 시각 언어 모델이 시각적 세부 사항 대신 시맨틱 앵커를 우선시하는 이유 | AI Trends