바이트 레벨 토크나이저
텍스트를 문자 단위가 아닌 바이트 단위로 쪼개어 처리하는 방식이다. 어휘집 크기를 관리하기 용이하며 미등록 단어(OOV) 문제를 효과적으로 해결하여 다양한 언어와 특수 문자를 안정적으로 처리한다.