문자 단위 토큰화 (character-level-tokenization) 용어 설명 | AI Trends
character-level-tokenization
문자 단위 토큰화
중급
텍스트를 단어 단위가 아닌 개별 문자 단위로 쪼개어 모델에 입력하는 방식이다. 어휘 사전의 크기를 최소화할 수 있어 메모리 효율적이지만, 문장 전체의 의미를 파악하기 위해 모델이 처리해야 할 시퀀스 길이가 길어지는 단점이 있다. 주로 소규모 모델의 기초 학습이나 특정 언어적 특성을 연구할 때 사용된다.