바이트 레벨 토크나이저
텍스트를 문자 단위가 아닌 바이트 단위로 쪼개어 처리하는 방식이다. 어휘집 크기를 관리하기 용이하며 미등록 단어(OOV) 문제를 효과적으로 해결하여 다양한 언어와 특수 문자를 안정적으로 처리한다.
기존 프레임워크는 너무 무겁다 Rust 기반 초경량 토크나이저 ByteTok