교착어
어근에 접미사가 결합하여 문법적 기능을 수행하는 언어 형태이다. 한국어나 터키어가 대표적이며, 표준 BPE 토큰화 시 의미 단위가 파괴되는 문제가 발생하기 쉬워 특화된 전처리가 중요하다.