DECO: Dense-Comparable Sparse MoE with End-Side Devices

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

MoE는 모델 용량 증가에 따른 성능 향상을 가능하게 하지만 저장 공간과 메모리 대역폭에 큰 부담이 따른다. DECO는 같은 총 파라미터 예산과 학습 토큰 수를 유지하면서 end-side 디바이스에서도 dense Transformer에 필적하는 성능을 달성하도록 설계되었다. 이를 통해 에너지 효율과 실 deployed 환경에서의 효율성을 동시에 확보한다.

왜 중요한가

MoE는 모델 용량 증가에 따른 성능 향상을 가능하게 하지만 저장 공간과 메모리 대역폭에 큰 부담이 따른다. DECO는 같은 총 파라미터 예산과 학습 토큰 수를 유지하면서 end-side 디바이스에서도 dense Transformer에 필적하는 성능을 달성하도록 설계되었다. 이를 통해 에너지 효율과 실 deployed 환경에서의 효율성을 동시에 확보한다.

핵심 기여

ReLU-based routing with learnable expert-wise scaling

라우터에 ReLU를 도입해 토큰별 activation ratio를 학습 가능하게 하고, routed-expert들의 출력 스케일 차이를 보정하기 위해 Ne 크기의 학습 가능한 α 벡터를 도입한다. 이로써 routed 및 shared expert 간의 기여도를 동적으로 조정하고 안정적으로 학습한다.

NormSiLU를 통한 안정적 활성화

inter-expert mean normalization과 intra-expert RMS normalization의 이중 단계 정규화를 통해 SiLU 출력의 크기를 안정화하고 routed-expert activation ratio를 억제한다. 이로 인해 대규모 Sparsity 정규화의 필요성이 감소하고 expert 활용도가 증가한다.

Non-gated MLP experts와 ReLU 기반 라우팅의 결합

게이트형 SwiGLU 대신 non-gated MLP experts를 사용하여 ReLU 기반 routing과의 호환성을 높이고 activation ratio의 안정화를 도모한다. 이는 학습 다이나믹스의 안정성 및 성능 향상으로 이어진다.

Adaptive sparsity regularization

router entropy와 동적으로 조정되는 정규화 계수 λ를 도입해 활성화 비율 목표값에 맞춰 희소화를 자동 제어한다. 목표 활성화 비율에 근접하면 정규화 강도가 조정되어 최적의 균형을 유지한다.

Dense-comparable 성능과 edge 디바이스에서의 실용성

activation ratio가 20%인 조건에서 DECO는 Dense 모델과 성능 동등성을 달성하며, Jetson AGX Orin에서 2.93×, RTX 4090에서 2.56×의 속도향상을 보이는 실험 결과를 제시한다.

전용 가속 커널로 실용적 추론 속도향상

CUTLASS 기반의 DECO 전용 가속 커널을 통해 희소 활성화의 메모리 접근 비용을 감소시키고, 실제 하드웨어에서 TopK 대비 더 높은 Throughput을 달성한다.

핵심 아이디어 이해하기

출발점: Dense Transformer의 표현력은 강력하지만, 전체 파라미터를 활성화하지 않는 MoE의 희소성으로 저장과 메모리 대역폭 이슈를 완화한다. 그러나 엔드-디바이스 배포에서는 저장 오버헤드와 메모리 접근 비용이 중요한 제약이다. DECO는 TopK 라우팅의 비 differentiable 특성을 극복하기 위해 ReLU 기반 routing을 채택하고, routed-expert 간 불균형 출력을 완화하기 위해 learnable expert-wise scaling을 도입한다. 실험적으로 활성화 비율이 20%일 때 Dense와 유사한 성능을 보여주고, 2.93×의 하드웨어 속도 향상을 입증한다. NormSiLU는 inter-expert mean normalization과 intra-expert RMS normalization의 조합으로 활성화 비율의 급격한 증가를 억제하고 SiLU 출력의 크기를 증가시켜 더 나은 expert 활용을 가능하게 한다. 또한 non-gated MLP experts를 채택해 재현성 높은 학습 곡선을 얻고, adaptive sparsity regularization으로 정규화 강도를 자동 조절한다. 이로써 end-side 디바이스에서도 dense 수준의 표현력을 유지하면서 MoE의 장점을 극대화한다.

방법론

단락 1: DECO의 세 가지 구성요소인 router, experts, adaptive sparsity regularization으로 구성된 전체 접근법을 제시한다. 단락 2: router의 핵심 메커니즘은 p = α ⊙ ReLU(Wrouter^T x)이며, Wrouter ∈ R^{dh×Ne}, α ∈ R^{Ne}이다. 두 단계의 조정으로 routed/expert 간의 기여를 조절한다. 단락 3: expert 설계는 Non-gated MLP를 채택하고, x_up = SparseLinear(x, W_up), x_up = NormSiLU(x, W_up, x_up), y = SparseLinear(x_up, W_down)로 구성된다. 단락 4: NormSiLU의 구체적 구현은 Algorithm 1으로, inter-expert mean normalization과 intra-expert RMS normalization으로 구성되며, 활성화 비율의 안정화를 돕는다. 단락 5: adaptive sparsity regularization은 router entropy Lent를 손실에 더하고 λ를 현재 sparsity에 따라 η 배로 증감시켜 목표 활성화 비율을 유지한다. 단락 6: 학습 및 평가 설정은 Dense, TopP, DeepSeek-V3, ReMoE, BlockFFN 등과 비교하며, activation ratio를 20%로 고정하고 같은 파라미터 수/토큰으로 평가한다. 수식/알고리즘은 논문에 제시된 형태를 따른다.

주요 결과

주요 결과는 다음과 같다. (1) Dense comparability: 평균 routed-expert activation ratio가 20%일 때 DECO는 Dense 기본선과 성능이 비슷하거나 동등하다. 동일 파라미터 수 및 학습 토큰에서 dense 수준의 표현력을 active computation 없이도 달성한다. (2) Performance superiority: 같은 activation ratio, shared-expert 차원 및 전문가 규모 조건에서 DECO는 기존 MoE 베이스라인보다 퍼포먼스가 우수하다. (3) Regression 및 ablation: learnable expert-wise router scaling의 효과를 입증하는 Table 1의 결과에서, 고정 스케일보다 벡터화된 스케일이 성능을 향상시키고, NormSiLU의 두 정규화 단계가 활성화 비율의 안정성 및 SiLU 출력 magnitudes를 개선한다. (4) Inference acceleration: DECO는 RTX 4090에서 2.57× ∼ 2.62×, Jetson AGX Orin에서 2.93×의 속도향상을 보여주며, sparse activation이 실제 하드웨어에서의 처리량 증가로 연결됨을 보인다. (5) Activation ratio에 따른 성능 추이: 활성화 비율이 증가하면 성능이 향상되며, 모델 규모가 커질수록 Dense-parity를 달성하는 데 필요한 비율이 낮아진다.

기술 상세

단락 1: DECO 아키텍처는 router, expert, adaptive sparsity regularization의 3요소로 구성된다. 단락 2: Router의 수학적 기반은 p = α ⊙ ReLU(Wrouter x)로, Wrouter ∈ R^{dh×Ne}, α ∈ R^{Ne}이며, 활성화 토큰별로 활성화 비율을 학습한다. SparseLinear 연산으로 활성 expert만 수행하도록 구현한다. 단락 3: Expert 설계는 Non-gated MLP로 구성되며, x_up = SparseLinear(x, W_up), x′_up = NormSiLU(x, W_up, x_up), y = SparseLinear(x′_up, W_down)로 전달된다. 단락 4: NormSiLU는 Algorithm 1으로 구현되며, inter-expert mean normalization과 intra-expert RMS normalization을 차례대로 적용한다. 단락 5: Prior work 대비 차별점은 TopK의 비가역적이고 입력 불변적인 활성화에서 벗어나 ReLU 기반 routing으로 토큰 의존적 활성화 비율을 가능하게 한 점, 그리고 expert-wise scaling으로 규모와 출력이 서로 다를 때의 균형을 맞춘 점이다. 단락 6: 학습 및 구현 세부사항은 같은 데이터 혼합 및 토큰 수를 유지하는 실험 설정, Lr 스케줄링(WSD), warmup 100, decay 1000 스텝 등 실험 재현성을 확보하는 설정으로 구성된다. 이론적 분석은 NormSiLU의 수학적 안정성 및 gradient bound를 Appendix에서 제시한다.

한계점

Limitations: Supervised fine-tuning(SFT)나 reinforcement learning(RL) 단계를 포함한 실험을 수행하지 않았다. MoE 아키텍처는 RL 불안정성 문제를 야기할 수 있으며, 향후 대규모(product-level) DECO 모델에서 SFT와 RL 단계에서의 문제를 탐구하고 완화 전략을 개발할 계획이다. 또한 activation ratio 임계값이 모델 규모에 따라 어떻게 달라지는지, 데이터 분포나 추론 작업에 따른 성능 변화에 대한 추가 검증이 필요하다.

실무 활용

DECO는 end-side 디바이스에서 Dense에 버금가는 성능을 유지하면서 활성화된 파라미터 수를 대폭 줄이는 Sparse MoE 아키텍처다. 이를 통해 에너지 효율과 저장 공간 요구를 감소시키고, 모바일/임베디드 환경에서 LLM 추론의 실용화를 가능하게 한다.

Edge-LLM inference on mobile/embedded devices
On-device code completion and QA in low-resource environments
Domain-specific assistants running locally on IoT devices
Privacy-preserving on-device reasoning for offline scenarios

코드 공개 여부: 공개

코드 저장소 보기

키워드

MoEdense-transformersReLU-based routingNormSiLUadaptive sparsityend-side deploymentedge devices