토크나이제이션이 다국어 LLM의 꿈을 가로막고 있다

핵심 요약

현재 LLM의 표준인 BPE 기반 토크나이제이션이 다국어 모델 성능을 저해하는 핵심 요인임을 지적한다. 저자원 언어에서 토큰 경계가 형태소와 일치하지 않아 모델이 추론 대신 텍스트 복원에 연산 자원을 낭비하게 만든다. 이는 비용 증가, 지연 시간 상승, 오타에 대한 취약성으로 이어지는 '네 가지 세금'으로 작용한다. 필자는 이를 해결하기 위해 토큰이 없는 아키텍처나 연속적인 사전 토크나이제이션 레이어 도입을 제안한다.

배경

LLM의 기본 구조(Transformer), BPE 토크나이제이션 개념, 임베딩 공간에 대한 이해

대상 독자

다국어 LLM 개발자, 저자원 언어 NLP 연구자, 토크나이저 최적화 엔지니어

의미 / 영향

이 글은 현재 LLM의 성능 한계가 모델 아키텍처나 데이터 양뿐만 아니라, 가장 기초적인 입력 단계인 토크나이제이션에 있음을 시사한다. 이를 해결하는 토큰 없는 모델이나 연속적 입력 레이어 연구가 향후 다국어 AI의 핵심 전장이 될 것이다.

섹션별 상세

토크나이제이션은 텍스트를 모델이 처리할 수 있는 숫자 단위인 토큰으로 변환하는 과정이다. 영어 중심의 BPE 알고리즘은 다국어 환경에서 단어를 의미 없는 파편으로 쪼개는 경향이 있다. 이로 인해 모델은 실제 추론을 시작하기 전, 흩어진 파편들로부터 원래의 의미를 재구성하는 데 불필요한 연산 자원을 소모하게 된다.

좋은 토크나이제이션과 나쁜 토크나이제이션의 비교 예시 — Diagram나쁜 토크나이제이션은 'Therapists'를 'The rap ists'처럼 의미가 왜곡된 파편으로 나누는 반면, 좋은 방식은 의미 단위인 형태소를 보존한다. 이는 모델이 텍스트를 이해하는 데 필요한 연산량과 정확도에 직접적인 영향을 미친다.

저자원 언어는 높은 비옥도(Fertility)와 낮은 압축률이라는 이중의 세금을 지불한다. 단어 하나를 표현하는 데 더 많은 토큰이 사용되면서 컨텍스트 윈도우가 낭비되고 추론 속도가 느려진다. 형태소 경계를 무시한 분할은 모델의 중간 레이어가 형태소 복원에 집중하게 만들어, 결과적으로 전체적인 지능 수준을 떨어뜨리는 결과를 초래한다.

형태소 단위 토큰화를 통한 건설적 일반화 과정 — Diagram단어를 접두사, 어근, 접미사로 올바르게 나누면 모델이 새로운 조합의 단어를 생성할 때 훨씬 더 높은 정확도와 유연성을 가질 수 있음을 보여준다.

토큰 임베딩의 중첩(Superposition) 현상이 발생한다. 특정 토큰 파편이 너무 다양한 언어적 맥락에서 공유되면, 임베딩 공간에서 명확한 의미로 수렴하지 못하고 간섭이 일어난다. 모델의 중간 레이어는 이러한 의미적 모호성을 해소하는 데 파라미터 예산을 할당해야 하며, 이는 복잡한 논리적 사고에 쓰여야 할 자원을 잠식한다.

토크나이제이션은 입력값의 미세한 변형에 매우 취약하다. 오타, 띄어쓰기, 발음 구별 기호의 유무에 따라 동일한 의미의 단어가 완전히 다른 토큰 시퀀스로 변환된다. 자카드 유사도 분석 결과, 인간이 보기에 거의 동일한 단어들이 토큰 수준에서는 공유하는 정보가 거의 없는 것으로 나타나 모델의 견고성을 해친다.

영어 단어 변형에 따른 토큰 임베딩 유사도 히트맵 — Chart오타나 대소문자 변화가 있을 때 토큰 임베딩 간의 코사인 유사도가 급격히 낮아지는 현상을 시각화한다. 이는 현재의 토크나이저가 입력의 미세한 변화에도 매우 취약함을 증명한다.

모로코 아랍어 변형에 따른 토큰 임베딩 유사도 히트맵 — Chart저자원 언어인 모로코 아랍어에서 변형에 따른 유사도 하락이 영어보다 더 심각하게 나타남을 보여준다. 이는 다국어 모델이 저자원 언어에서 특히 더 낮은 견고성을 갖는 이유를 설명한다.

토큰이 없는(Tokenization-free) 아키텍처가 대안으로 부상하고 있다. 텍스트를 이미지로 렌더링하여 시각적 인코더로 처리하거나, 바이트 단위로 직접 학습하는 방식이 연구되고 있다. 특히 원시 텍스트와 모델 사이에 연속적인 표현 공간을 형성하는 사전 토크나이제이션 레이어 도입이 다국어 성능 격차를 줄일 핵심 열쇠로 지목된다.

실무 Takeaway

다국어 모델 성능을 높이려면 데이터 증설 이전에 토크나이저의 형태소 정렬(Morphological Alignment) 최적화가 선행되어야 한다.
저자원 언어의 추론 능력 저하는 모델 크기 문제가 아니라 토크나이저가 유발한 노이즈를 처리하느라 발생하는 자원 낭비의 결과다.
오타와 변형에 강한 서비스를 구축하기 위해 토큰 임베딩 수준에서 유사성을 보존하는 연속적 표현(Continuous Representation) 기술을 검토해야 한다.

언급된 리소스

튜토리얼Andrej Karpathy's introduction to tokenization

논문MorphBPE

논문Tokenization Falling Short (EMNLP 2024)

핵심 요약

배경

LLM의 기본 구조(Transformer), BPE 토크나이제이션 개념, 임베딩 공간에 대한 이해

대상 독자

다국어 LLM 개발자, 저자원 언어 NLP 연구자, 토크나이저 최적화 엔지니어

의미 / 영향

섹션별 상세

실무 Takeaway

다국어 모델 성능을 높이려면 데이터 증설 이전에 토크나이저의 형태소 정렬(Morphological Alignment) 최적화가 선행되어야 한다.
저자원 언어의 추론 능력 저하는 모델 크기 문제가 아니라 토크나이저가 유발한 노이즈를 처리하느라 발생하는 자원 낭비의 결과다.
오타와 변형에 강한 서비스를 구축하기 위해 토큰 임베딩 수준에서 유사성을 보존하는 연속적 표현(Continuous Representation) 기술을 검토해야 한다.

언급된 리소스

튜토리얼Andrej Karpathy's introduction to tokenization

논문MorphBPE

논문Tokenization Falling Short (EMNLP 2024)

토크나이제이션이 다국어 LLM의 꿈을 가로막고 있다

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

토크나이제이션이 다국어 LLM의 꿈을 가로막고 있다

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글