CohereResearch

토큰 증류: 새로운 토큰을 위한 어텐션 인지 입력 임베딩 초기화 기법

기존 임베딩 행렬에만 의존하던 방식에서 벗어나 Transformer 내부 레이어의 정보를 증류하여 새로운 토큰의 임베딩을 효율적으로 초기화하는 Token Distillation 기법을 제안합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존의 단순 평균 방식보다 Transformer 레이어의 정보를 직접 증류하여 임베딩을 초기화하는 것이 훨씬 더 의미론적으로 정확하고 효율적인 토크나이저 전이를 가능하게 한다.

배경

사전 학습된 대규모 언어 모델(LLM)은 고정된 토크나이저를 사용하므로 새로운 언어나 전문 도메인에서 토큰 효율성이 떨어지고 비용이 증가하는 문제가 발생한다.

대상 독자

LLM 연구자, 다국어 모델 개발자, NLP 엔지니어 및 토크나이저 최적화에 관심 있는 개발자

의미 / 영향

이 연구는 LLM의 언어 확장 및 도메인 특화 과정에서 발생하는 토크나이저 비효율 문제를 획기적으로 개선한다. 특히 한국어와 같이 기존 글로벌 모델에서 토큰 효율이 낮은 언어에 대해, 방대한 재학습 없이도 적은 비용으로 최적화된 토크나이저를 이식할 수 있는 실질적인 가이드를 제공한다.

챕터별 상세

01:49

Tokenizer Transfer의 필요성과 한계

사전 학습된 모델의 토크나이저는 특정 언어 분포에 고정되어 있어 새로운 언어나 도메인에서 비효율적이다. 이는 토큰당 비용 상승과 성능 저하를 초래한다. 이를 해결하기 위해 토크나이저를 커스터마이징하고 새로운 임베딩을 효과적으로 초기화하는 과정이 필수적이다.

•기존 BPE 기반 토크나이저는 새로운 도메인에서 토큰 분절 효율이 급격히 저하됨
•토큰 수 증가는 곧 연산 비용 증가와 컨텍스트 윈도우 낭비로 이어짐
•새로운 토큰 추가 시 단순 랜덤 초기화는 모델 성능을 심각하게 저해함

04:50

기존 임베딩 초기화 방식의 문제점

랜덤 초기화나 기존 임베딩의 평균값을 사용하는 방식은 Transformer 내부 레이어에 저장된 풍부한 정보를 무시한다. 서브토큰 임베딩을 평균 내는 방식이 그나마 낫지만, 여전히 어텐션 메커니즘과 피드포워드 네트워크(FFN) 가중치에 담긴 의미론적 정보를 활용하지 못하는 한계가 있다.

•임베딩 행렬에만 의존하는 방식은 모델의 실제 추론 로직을 반영하지 못함
•서브토큰 결합 시 발생하는 복잡한 상호작용 정보가 초기화 단계에서 유실됨
•초기화가 부실할 경우 성능 회복을 위해 방대한 양의 추가 학습 데이터가 필요함

10:10

Token Distillation 기법의 작동 원리

새로운 토큰이 기존 서브토큰 시퀀스와 동일하게 동작하도록 Transformer 내부의 Hidden State를 일치시키는 증류 목적 함수를 사용한다. 교사 모델은 기존 서브토큰 시퀀스를 입력받고, 학생 모델은 새로운 단일 토큰을 입력받아 마지막 레이어의 출력을 MSE 손실 함수로 최적화한다. 이 과정을 통해 Transformer 가중치에 녹아있는 의미 정보를 단일 임베딩 벡터로 압축하여 추출한다.

•Transformer 레이어를 고정한 채 새로운 토큰의 임베딩 벡터만 학습함
•기존 서브토큰들의 상호작용 결과물인 Hidden State를 직접 모방함
•어텐션 맵과 FFN의 지식을 임베딩 초기값에 직접 주입하는 효과를 냄

증류(Distillation)는 보통 모델 크기를 줄이는 데 쓰이지만, 여기서는 여러 토큰의 정보를 하나의 벡터로 압축하는 데 사용되었다.

21:28

실험 결과 및 벤치마크 성능 분석

생의학 도메인 적응 실험에서 Token Distillation은 기존의 서브토큰 평균 방식이나 Next Token Prediction(NTP) 기반 방식보다 우수한 성능을 보였다. 특히 프랑스어 적응 실험에서는 단 5,000개의 토큰 추가만으로 토큰 수를 20% 줄이면서도 원본 모델의 성능을 거의 완벽하게 유지했다. 아랍어와 같은 극단적인 사례에서도 적은 양의 추가 학습으로 원본 토크나이저 수준의 성능에 도달했다.

•단 25개의 샘플만으로도 2,500개의 토큰을 10분 내에 효과적으로 초기화 가능
•Hyper-network 기반 방식보다 연산 효율성과 범용성 면에서 우위를 점함
•토큰 수 감소를 통해 추론 속도 향상과 비용 절감을 동시에 달성함

32:37

타이드 임베딩 모델에서의 실패 사례와 해결책

입력과 출력 임베딩이 공유되는 타이드 임베딩(Tied Embeddings) 모델에서는 단순 증류 시 임베딩 노름(Norm)이 폭발하여 생성이 망가지는 현상이 발견됐다. 이를 해결하기 위해 증류 손실 함수에 NTP 손실 함수를 결합하고, 두 손실 함수의 스케일을 동적으로 조절하는 Alpha-NTP 기법을 도입했다. 결과적으로 타이드 임베딩 모델에서도 안정적인 초기화와 높은 성능을 확보했다.

•Llama 3.2와 같은 타이드 임베딩 모델에서 발생할 수 있는 특이 케이스 식별
•NTP 손실 함수가 임베딩 노름을 제어하는 정규화 역할을 수행함
•Alpha-NTP를 통해 증류의 의미론적 이점과 NTP의 안정성을 결합함

42:00

향후 연구 방향 및 결론

입력 임베딩뿐만 아니라 출력 임베딩 최적화, 그리고 하이퍼네트워크와의 결합을 통한 범용적인 토크나이저 적응 기술의 미래를 전망한다. 또한 Transformer 내부 곳곳에 임베딩 룩업 테이블을 배치하는 새로운 아키텍처(Engram 등)에서의 토크나이저 전이 가능성을 논의한다. 최종적으로는 모델 학습 후에도 토크나이저를 자유롭게 변경할 수 있는 유연한 에코시스템 구축을 목표로 한다.

•입력과 출력 임베딩의 역할 차이를 인지한 차별화된 접근 필요
•Sparse 파라미터 스케일링 기법과 토크나이저 전이의 결합 가능성 제시
•누구나 쉽게 토크나이저를 변경할 수 있는 표준 레시피 제공 목표

실무 Takeaway

새로운 토큰 추가 시 단순 평균 대신 Transformer 내부 Hidden State를 모방하도록 학습시키면 임베딩의 의미론적 정확도가 크게 향상된다.
Token Distillation은 단 25개의 문맥 샘플만으로도 수천 개의 토큰 임베딩을 10분 내에 초기화할 수 있는 고효율 방법론이다.
입출력 임베딩이 공유되는 모델에서는 증류 손실 함수와 Next Token Prediction 손실 함수를 적절히 섞어 임베딩 노름의 폭발을 방지해야 한다.
Transformer의 초기 레이어(약 1/3 지점)에서 증류를 수행하는 것이 마지막 레이어보다 더 빠르고 정확한 의미 정보를 추출할 수 있다.

언급된 리소스

논문Token Distillation: Attention-aware Input Embeddings for New Tokens

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 19.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

토큰 증류: 새로운 토큰을 위한 어텐션 인지 입력 임베딩 초기화 기법 | AI Trends