Bielik v3 7B 및 11B 시리즈의 토크나이저 최적화를 통한 폴란드어 언어 모델링 발전

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

범용 LLM이 폴란드어와 같은 특정 언어에서 겪는 구조적 비효율성을 토크나이저 최적화로 해결했다. 단어당 토큰 수를 절반으로 줄이면서도 성능을 유지하여 추론 비용 절감과 문맥 활용도 극대화를 동시에 달성했다.

왜 중요한가

핵심 기여

폴란드어 전용 APT4 토크나이저 개발

기존 Mistral 기반 토크나이저의 높은 토큰 팽창 지수를 해결하기 위해 32,000개 규모의 폴란드어 최적화 어휘집을 구축했다. 이를 통해 폴란드어 텍스트의 단어당 토큰 수를 3.22개에서 1.62개로 줄여 효율성을 약 2배 개선했다.

FOCUS 기반 임베딩 초기화 및 다단계 지속 학습

토크나이저 교체 시 발생하는 치명적 망각을 방지하기 위해 FOCUS 기법을 적용했다. 4B 토큰의 부분 동결 학습과 16B 토큰의 전체 모델 적응 단계를 거쳐 새로운 토큰 공간에 모델을 안정적으로 안착시켰다.

GRPO를 포함한 고도화된 사후 학습 파이프라인

SFT와 DPO를 넘어 검증 가능한 보상을 활용하는 GRPO 강화학습을 적용했다. 이를 통해 수학, 논리, STEM 분야의 추론 능력을 강화하고 사용자 의도에 대한 정렬 수준을 높였다.

핵심 아이디어 이해하기

언어 모델은 텍스트를 숫자로 변환하는 토크나이저를 통해 세상을 이해한다. 하지만 Mistral과 같은 범용 모델의 토크나이저는 영어 중심이어서 폴란드어 단어 하나를 여러 조각으로 쪼개는 비효율이 발생한다. 이는 모델이 한 번에 처리할 수 있는 정보량을 줄이고 연산 비용을 높이는 원인이 된다.

이 문제를 해결하기 위해 연구진은 폴란드어에 최적화된 새로운 어휘집을 만들었으나, 단순히 어휘집만 바꾸면 모델이 기존에 배운 지식을 모두 잃어버리는 '치명적 망각'이 발생한다. 이를 방지하기 위해 FOCUS 기법을 도입했다. FOCUS는 새로운 토큰의 의미(Embedding)를 기존 토크나이저가 알고 있던 유사한 토큰들의 조합으로 계산하여 초기화한다. 즉, 모델이 이미 알고 있는 개념적 지도를 바탕으로 새로운 단어장을 해석할 수 있게 가이드를 제공하는 원리이다.

결과적으로 모델은 더 적은 수의 토큰으로 더 많은 정보를 담을 수 있게 되었다. 이는 동일한 문맥 창 안에서 더 긴 문서를 처리할 수 있게 함과 동시에, 생성 속도를 높이고 추론에 드는 비용을 획기적으로 낮추는 실질적인 이득으로 이어진다.

방법론

전체 학습 과정은 토크나이저 교체와 다단계 지속 학습(Continued Pretraining)으로 구성된다. 먼저 32,000개의 토큰을 가진 APT4 토크나이저를 설계하고, FOCUS 프레임워크를 사용하여 타겟 어휘집의 각 토큰을 원본 어휘집 토큰들의 희소 선형 결합으로 표현하여 임베딩 층을 초기화한다.

지속 학습은 두 단계로 진행된다. 1단계에서는 입력 임베딩 층, 언어 모델링 헤드, 그리고 모델의 최하단 및 최상단 4개 레이어만 업데이트하며 4B 토큰을 학습시킨다. 이는 고차원 추론 능력은 보존하면서 새로운 토큰 공간과 모델 내부 표현 사이의 매핑을 안정화하는 과정이다. 2단계에서는 모든 파라미터의 동결을 해제하고 16B 토큰을 추가 학습하여 폴란드어 특성에 맞게 가중치를 전역적으로 미세 조정한다.

사후 학습(Post-training)에서는 고품질 지시어 데이터셋을 활용한 SFT(Supervised Fine-Tuning)를 3에폭 수행한 뒤, DPO(Direct Preference Optimization)를 통해 사용자 선호도를 반영한다. 마지막으로 GRPO(Group Relative Policy Optimization)를 도입하여 수학 및 논리 문제에서 중간 추론 단계를 스스로 최적화하도록 강화학습을 수행한다.

주요 결과

Bielik-PL-11B-v3-Instruct 모델은 Open PL LLM 리더보드에서 64.11점을 기록하며, 파라미터 수가 훨씬 많은 Llama-3.1-70B-Instruct(65.49점)에 근접하는 성능을 보였다. 특히 폴란드어 감성 분석 및 개체명 인식 등 기초 언어 이해 태스크에서 탁월한 성과를 거두었다.

토크나이저 효율성 측면에서 폴란드어 헌법 전문을 처리할 때 단어당 토큰 수(TpW)가 기존 3.22개에서 1.62개로 감소했다. 이는 동일한 텍스트를 처리하는 데 필요한 연산량이 절반 수준으로 줄어들었음을 의미한다. 반면 영어 처리 효율성(TpW 1.98)은 소폭 하락했으나 여전히 실용적인 수준을 유지했다.

복합 폴란드어 이해 벤치마크(CPTUB)에서는 11B 모델이 3.80점을 기록하여 DeepSeek-V3(4.03점)와 같은 초거대 모델들과 경쟁 가능한 수준의 추론 능력을 입증했다. 특히 함축 의미 이해(4.02)와 감성 분석(4.05) 항목에서 강점을 보였다.

기술 상세

Bielik v3 아키텍처는 Mistral 7B를 기반으로 하며, GQA(Grouped-Query Attention)를 통해 추론 시 메모리 대역폭 사용량을 최적화했다. 11B 모델은 DUS(Depth Up-Scaling) 전략을 통해 50레이어로 확장되었으며, 7B 모델은 11B 모델로부터 구조적 가지치기(Pruning)와 지식 증류(Knowledge Distillation)를 통해 생성되었다.

토크나이저 최적화의 핵심인 APT4는 이전 버전인 APT3를 개선하여 숫자, 문장 부호, 특수 문자의 처리 효율을 높였다. FOCUS 기법 적용 시 Sparsemax를 활용하여 가장 관련성 높은 토큰 조합만을 선택함으로써 임베딩 행렬의 초기 품질을 극대화했다.

강화학습 단계에서 사용된 GRPO는 DeepSeek-V3에서 제안된 방식으로, 별도의 가치 함수 네트워크 없이 그룹 내 보상의 평균과 표준편차를 이용해 어드밴티지를 계산한다. 이는 훈련 복잡도를 낮추면서도 모델이 복잡한 추론 경로를 탐색하도록 유도하는 데 효과적임을 확인했다.

한계점

표준적인 LLM의 한계인 사실적 오류(Hallucination) 가능성이 여전히 존재하며, 학습 데이터 정제 노력에도 불구하고 편향되거나 부적절한 출력이 생성될 위험이 있다. 또한 폴란드어 최적화 과정에서 영어 처리 효율이 소폭 저하되었다.

실무 활용

폴란드어 환경에서 비용 효율적인 고성능 LLM 도입이 필요한 기업 및 개발자에게 최적의 솔루션을 제공한다.

폴란드어 고객 응대 챗봇 및 자동 응답 시스템 구축
대규모 폴란드어 문서 요약 및 정보 추출 (토큰 효율성으로 비용 절감)
폴란드 의료 및 법률 등 전문 도메인 특화 언어 모델 개발의 베이스 모델

코드 공개 여부: 공개

코드 저장소 보기

키워드

LLM(대형 언어 모델)Tokenization(토큰화)Polish-Language(폴란드어)FOCUS(임베딩 초기화 기법)GRPO(그룹 상대 정책 최적화)

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

폴란드어 전용 APT4 토크나이저 개발

FOCUS 기반 임베딩 초기화 및 다단계 지속 학습

GRPO를 포함한 고도화된 사후 학습 파이프라인

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

폴란드어 환경에서 비용 효율적인 고성능 LLM 도입이 필요한 기업 및 개발자에게 최적의 솔루션을 제공한다.

폴란드어 고객 응대 챗봇 및 자동 응답 시스템 구축
대규모 폴란드어 문서 요약 및 정보 추출 (토큰 효율성으로 비용 절감)
폴란드 의료 및 법률 등 전문 도메인 특화 언어 모델 개발의 베이스 모델

코드 공개 여부: 공개

코드 저장소 보기

키워드

LLM(대형 언어 모델)Tokenization(토큰화)Polish-Language(폴란드어)FOCUS(임베딩 초기화 기법)GRPO(그룹 상대 정책 최적화)

Bielik v3 7B 및 11B 시리즈의 토크나이저 최적화를 통한 폴란드어 언어 모델링 발전

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

Bielik v3 7B 및 11B 시리즈의 토크나이저 최적화를 통한 폴란드어 언어 모델링 발전

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드