이산 토큰화
이미지나 오디오와 같은 연속적인 신호를 유한한 집합 내의 불연속적인 기호(토큰)로 변환하는 과정이다. 이를 통해 언어 모델의 텍스트 처리 방식과 동일한 구조 내에서 시각 및 청각 정보를 처리할 수 있어 모델의 범용성이 확장된다.