핵심 요약
기존의 터키어 AI 모델들은 단어를 하나씩 순차적으로 생성하는 방식에 의존하여 속도와 문맥 파악에 한계가 있었으나, 이 논문은 문장 전체를 동시에 생성하는 디퓨전 방식을 터키어에 최초로 적용했다. 단 3억 개의 파라미터만으로도 7배 더 큰 기존 모델들보다 뛰어난 성능을 보여주어, 저사양 환경에서도 고성능 터키어 AI를 구현할 수 있는 새로운 길을 열었다.
왜 중요한가
기존의 터키어 AI 모델들은 단어를 하나씩 순차적으로 생성하는 방식에 의존하여 속도와 문맥 파악에 한계가 있었으나, 이 논문은 문장 전체를 동시에 생성하는 디퓨전 방식을 터키어에 최초로 적용했다. 단 3억 개의 파라미터만으로도 7배 더 큰 기존 모델들보다 뛰어난 성능을 보여주어, 저사양 환경에서도 고성능 터키어 AI를 구현할 수 있는 새로운 길을 열었다.
핵심 기여
터키어 최초의 마스크드 디퓨전 언어 모델(MDLM) 구현
터키어와 같은 복잡한 교착어의 형태학적 특성을 처리하기 위해 설계된 최초의 비자기회귀형 디퓨전 모델인 Diffutron을 개발했다.
LoRA 기반의 고효율 지속 사전 학습 전략
다국어 인코더인 mmBERT-base의 모든 선형 모듈에 LoRA를 적용하여, 전체 파라미터의 14.94%만 학습하면서도 터키어의 언어적 뉘앙스를 효과적으로 포착했다.
2단계 점진적 인스트럭션 튜닝 방법론
기본 지시 이행을 위한 1단계와 복잡한 터키어 전용 작업을 위한 2단계 튜닝을 순차적으로 진행하여 모델의 응답 일관성과 유용성을 극대화했다.
소형 모델의 거대 모델 능가 성능 입증
307M 파라미터 크기로 Kumru-2B, TURNA(1.1B) 등 훨씬 큰 자기회귀 모델들을 벤치마크 평균 점수에서 앞서는 효율성을 확인했다.
핵심 아이디어 이해하기
기존의 GPT와 같은 자기회귀(Autoregressive) 모델은 텍스트를 왼쪽에서 오른쪽으로 한 단어씩 생성한다. 이는 이전 단어가 다음 단어의 힌트가 되는 구조로, 문장 전체의 구조를 동시에 고려하기 어렵고 문장이 길어질수록 생성 속도가 느려지는 한계가 있다. 특히 터키어처럼 단어 뒤에 여러 접사가 붙어 의미가 정교하게 변하는 언어에서는 문장 전체의 일관성을 유지하는 것이 매우 중요하다.
Diffutron은 이 문제를 해결하기 위해 마스크드 디퓨전(Masked Diffusion) 방식을 도입했다. 이는 문장 전체를 마스크() 토큰으로 채운 상태에서 시작하여, 여러 단계의 정제 과정을 거쳐 모든 단어를 동시에 예측하는 방식이다. 이 과정에서 모델은 특정 단어만 보는 것이 아니라 문장 전체의 양방향 문맥을 동시에 참조하여 가장 적합한 단어 조합을 찾아낸다.
이 모델은 다국어 지식을 이미 갖춘 mmBERT를 기반으로 삼아 터키어 데이터로 추가 학습되었다. 특히 LoRA 기술을 통해 모델의 핵심 엔진은 건드리지 않고 터키어 문법에 최적화된 미세한 조정 레이어만 추가했다. 그 결과, 매우 작은 모델 크기로도 거대 모델들이 놓치기 쉬운 터키어의 복잡한 문맥을 정확하게 파악하고 생성할 수 있게 되었다.
방법론
전체 아키텍처는 jhu-clsp/mmBERT-base를 백본으로 사용하는 마스크드 디퓨전 언어 모델(MDLM) 구조를 채택했다. 텍스트 생성 과정을 이산적 디퓨전 프로세스로 정의하고, 순방향 과정에서 텍스트를 점진적으로 마스크 토큰으로 오염시킨 후 역방향 과정에서 이를 복원하도록 학습한다. 순방향 전이 확률 은 [이전 단계의 토큰 과 전이 확률 eta_t를 입력으로] → [전이 행렬 를 곱하는 연산을 수행해] → [다음 단계의 토큰 를 얻고] → [이 값은 특정 토큰이 마스크로 변할 확률적 상태를 의미한다].
지속 사전 학습(CPT) 단계에서는 LoRA를 적용하여 효율성을 높였다. [입력 임베딩 데이터를 모든 선형 레이어(Q, K, V, O 및 MLP)에 추가된 저순위 행렬에 입력으로] → [rank=256 규모의 행렬 곱셈 연산을 수행해] → [기존 가중치에 더해질 보정값을 얻고] → [이 값은 모델이 터키어의 형태학적 복잡성을 이해하는 가중치로 작용한다]. 전체 파라미터의 약 14.94%만 업데이트하여 기존 다국어 지식의 망각을 방지했다.
인스트럭션 튜닝은 2단계 점진적 전략을 사용했다. 1단계에서는 LlamaTurk 데이터셋으로 기본적인 지시 이행 패턴을 학습하고, 2단계에서는 InstrucTurca 데이터셋을 통해 더 복잡하고 문맥 의존적인 터키어 전용 작업을 수행하도록 정교화했다. 학습 시에는 Paged AdamW 8-bit 옵티마이저를 사용하여 메모리 사용량을 최적화하고 학습 안정성을 확보했다.
주요 결과
언어 모델링의 핵심 지표인 Perplexity(PPL) 분석 결과, 베이스 모델인 mmBERT-base의 3.42에서 Diffutron-0.3B-Base는 2.75로 크게 낮아졌다. 이는 지속 사전 학습을 통해 터키어 문장 구조에 대한 모델의 예측 불확실성이 효과적으로 감소했음을 입증한다.
CETVEL 벤치마크의 7개 하위 작업 평가에서 Diffutron(2단계 튜닝 모델)은 평균 34.68점을 기록했다. 이는 1.1B 파라미터의 TURNA(33.19점)와 2B 파라미터의 Kumru-2B(34.09점)를 모두 능가하는 성과이다. 특히 307M라는 작은 크기로 7배 이상 큰 모델들보다 우수한 성능을 보였다는 점이 핵심이다.
세부 항목 중 STS_TR(의미적 유사성) 작업에서는 18.78점을 기록하여 Llama-3.2-3B(12.91점)를 포함한 모든 비교 모델 중 가장 높은 점수를 획득했다. 이는 양방향 문맥을 동시에 고려하는 디퓨전 모델의 특성이 문장 간의 미세한 의미 차이를 파악하는 데 매우 효과적임을 보여준다.
기술 상세
Diffutron은 Discrete Masked Diffusion 모델로, 순방향 과정에서 전이 행렬을 통해 토큰을 상태로 전이시킨다. 역방향 과정 에서는 신경망이 노이즈가 섞인 상태 로부터 원본 토큰 를 직접 예측하도록 학습된다. 이는 전체 문장을 한 번에 정제하는 병렬 생성을 가능하게 하며, 기존 자기회귀 모델의 순차적 연산 제약을 극복한다.
LoRA 설정에서 rank , alpha 을 사용하여 높은 수용력을 확보했다. 일반적인 LoRA가 Attention의 Q, V 행렬만 타겟팅하는 것과 달리, 본 연구에서는 모든 선형 모듈(Q, K, V, O 및 MLP)을 타겟팅하여 교착어인 터키어의 복잡한 언어 정보를 충분히 수용하도록 설계했다.
학습 데이터는 Havadis(뉴스), Temiz-OSCAR(웹), Turkish Wikipedia를 혼합하여 총 200만 개의 시퀀스로 구성된 전용 코퍼스를 구축했다. 최대 시퀀스 길이는 512토큰으로 설정되었으며, 이는 백본 모델인 mmBERT의 아키텍처 사양을 준수한 결과이다.
한계점
터키어 전용 인코더 모델의 부재로 인해 다국어 모델인 mmBERT를 백본으로 사용했기 때문에, 터키어 전용 아키텍처에 비해 표현력에 한계가 있을 수 있다. 또한 고품질의 터키어 지시어 데이터셋 부족으로 인해 일부 번역 데이터에 의존했으며, 256토큰 수준의 짧은 컨텍스트 윈도우는 장문 생성이나 대규모 문서 요약 작업에 제약이 된다.
실무 활용
터키어 환경에서 저사양 하드웨어를 활용해 고성능 텍스트 생성 및 이해 서비스를 구축하려는 개발자에게 최적화된 모델이다.
- 터키어 전용 경량 챗봇 및 실시간 고객 응대 시스템 구축
- 모바일 기기 등 온디바이스 환경에서의 터키어 텍스트 요약 및 생성
- 터키어 문장 간 유사도 측정 및 고성능 검색 엔진의 리랭킹 시스템
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.