이산 시각 토큰
이미지의 특징을 연속적인 벡터가 아닌 불연속적인 기호(토큰)의 집합으로 표현하는 방식이다. 텍스트처럼 시각적 패턴을 기호화하여 모델의 이해도를 높이는 데 기여한다.
도형은 못 읽고 텍스트만 읽는 VLM? 공간 인식의 치명적 약점 발견