벡터 양자화 토크나이저
입력 이미지를 고정 길이의 공간 격자로 인코딩한 뒤 각 위치를 코드북의 가장 가까운 코드로 양자화하여 이산 토큰 시퀀스로 변환하는 기법이다. 인코더는 연속적 특징을 생성하고 코드북은 학습 가능한 대표 벡터 집합을 제공한다. 생성기는 이 이산 인덱스를 예측하여 이미지 재구성 또는 샘플링을 수행하므로 토크나이저의 분포가 생성 성능에 직접 영향을 미친다.