사전 토크나이징
본격적인 토크나이징 전에 공백이나 구두점 등을 기준으로 텍스트를 1차 분할하는 과정이다. 모델이 단어의 경계를 더 잘 이해하도록 돕고 토크나이징 결과의 일관성을 높이는 중요한 전처리 단계이다.
기존 프레임워크는 너무 무겁다 Rust 기반 초경량 토크나이저 ByteTok