비전 토큰
이미지 데이터를 모델이 처리할 수 있는 최소 단위의 벡터 형태로 분할한 것이다. 텍스트 모델의 토큰과 유사한 역할을 하며, 모델은 이 토큰들을 분석하여 이미지 내의 객체, 관계, 텍스트 정보를 파악한다.