어휘 양자화
수만 개의 토큰 임베딩을 소수의 중심점(Centroid)으로 클러스터링하여 모델 크기를 줄이는 기법이다. Potion 모델에서는 29,000개의 토큰을 2,000개로 압축하여 700KB라는 극소형 크기를 달성했다.