토큰화
텍스트 데이터를 모델이 처리할 수 있는 최소 단위인 토큰으로 분리하는 과정이다. 단어, 부분 단어, 또는 문자 단위로 쪼개어 수치화된 벡터로 변환하는 전처리 단계로, 모델의 어휘 사전 크기와 효율성에 직접적인 영향을 미친다.