Transformers 라이브러리의 Mixture of Experts (MoEs) 지원 및 최적화

핵심 요약

대규모 언어 모델의 효율적인 확장을 위해 Mixture of Experts (MoEs) 아키텍처가 주목받고 있으나, 기존 도구들은 밀집(Dense) 모델에 최적화되어 있었다. Hugging Face는 Transformers 라이브러리를 업데이트하여 MoE 모델을 위한 가중치 로딩 리팩터링, 전문가 백엔드(Expert Backend), 전문가 병렬 처리(Expert Parallelism) 기능을 도입했다. 이를 통해 DeepSeek-R1과 같은 대규모 희소(Sparse) 모델의 로딩 속도를 최대 6배 향상시키고, 메모리 사용량을 최적화하며 분산 환경에서의 추론 및 학습 효율을 극대화했다.

배경

PyTorch, Transformers Library, Distributed Training Concepts

대상 독자

대규모 MoE 모델을 배포하거나 파인튜닝하려는 ML 엔지니어 및 연구원

의미 / 영향

이번 업데이트는 DeepSeek-R1과 같은 최신 MoE 모델의 접근성을 크게 높였다. 특히 로딩 및 추론 효율화는 하드웨어 비용 절감으로 이어져 더 많은 기업이 고성능 희소 모델을 실무에 도입하는 계기가 될 것이다.

섹션별 상세

MoE는 전체 파라미터 중 일부 전문가(Expert)만 활성화하여 추론 속도를 높이는 아키텍처로, 최근 DeepSeek-R1 등의 성공으로 업계 표준이 되고 있다. 모델 용량은 전체 파라미터 수에 비례하지만, 실제 추론에 사용되는 활성 파라미터 수는 훨씬 적어 연산 효율성이 뛰어나다. 고정된 학습 예산 내에서 밀집 모델보다 더 나은 성능을 보여주며, 최근 Qwen 3.5나 GLM-5 등 주요 오픈 모델들이 이 구조를 채택하는 추세이다.

새로운 가중치 로딩 리팩터링은 WeightConverter를 도입하여 체크포인트의 개별 텐서를 런타임에 최적화된 단일 패킹 텐서로 변환한다. 기존에는 체크포인트와 런타임 레이아웃이 일치해야 했으나, 이제는 로딩 과정에서 병합(Merge)이나 분할(Split) 연산을 수행할 수 있다. 비동기 구체화(Async Materialization)와 스케줄링 최적화를 통해 110B 규모 모델의 로딩 시간을 66초에서 10초 수준으로 단축했다.

Experts Backend 시스템은 eager, batched_mm, grouped_mm 등 다양한 실행 방식을 지원하여 하드웨어 상황에 맞는 최적의 전문가 연산을 가능하게 한다. eager 방식은 디버깅에 적합하며, batched_mm은 GPU 자원이 풍부한 소규모 배치 작업에 유리하다. 특히 grouped_mm은 토큰을 전문가 ID별로 정렬하여 처리함으로써 대규모 배치나 메모리 제약 환경에서 높은 성능을 발휘한다.

전문가 병렬 처리(Expert Parallelism) 기능을 통해 수천억 개의 파라미터를 가진 모델을 여러 GPU에 분산 배치하고 로컬 전문가 연산을 수행한다. DistributedConfig에서 간단한 설정으로 활성화할 수 있으며, 각 장치는 할당된 전문가 부분집합만 로드하여 메모리 부담을 줄인다. 라우터 병렬화와 올리듀스(All-reduce) 통신을 결합하여 분산 환경에서도 단일 모델처럼 동작하는 구조를 구현했다.

Unsloth와의 협업을 통해 MoE 학습 속도를 12배 향상시키고 VRAM 사용량을 35% 절감하는 등 학습 효율성 측면에서도 큰 진전을 이루었다. PyTorch의 grouped_mm API와 커스텀 Triton 커널을 활용하여 LoRA 학습 시의 오버헤드를 최소화했다. 이를 통해 기존 대비 최대 6배 긴 컨텍스트 길이를 지원하며 전체적인 학습 워크플로우를 최적화했다.

</> 코드 예제 포함

실무 Takeaway

Transformers v5의 비동기 로딩 파이프라인을 사용하면 110B 규모의 MoE 모델 로딩 시간을 66초에서 10초 내외로 단축할 수 있다.
grouped_mm 백엔드를 활용하면 대규모 배치 처리 시 메모리 제약 환경에서도 효율적인 전문가 연산이 가능하다.
DistributedConfig에서 enable_expert_parallel=True 설정을 통해 단일 GPU 메모리를 초과하는 대형 MoE 모델을 손쉽게 분산 배치할 수 있다.

언급된 리소스

논문OLMoE: Open Mixture-of-Experts Language Models

튜토리얼Unsloth MoE Training Guide