TL;DR
MoE에서 고정 Top-K 라우팅은 토큰 복잡도에 따라 불필요한 전문가를 활성화시키며 계산 비효율을 초래한다. BEAM은 Lightweight한 mask router를 도입해 Top-K 후보에서 불필요한 전문가를 비활성화하고, STE로 학습하는 엔드-투-엔드 구조를 통해 토큰별로 활성화된 전문가 수를 동적으로 조절한다. vLLM에 CUDA 커널로 플러그인 가능하며, 중간 수준의 Sparsity에서 정확도 손실을 2% 내외로 유지하고 MoE 레이어 FLOPs를 최대 85%까지 감소시킨다. 이는 대규모 MoE 모델의 실무 배포에서 추론 속도와 처리량을 크게 향상시킨다.
왜 중요한가
MoE에서 고정 Top-K 라우팅은 토큰 복잡도에 따라 불필요한 전문가를 활성화시키며 계산 비효율을 초래한다. BEAM은 Lightweight한 mask router를 도입해 Top-K 후보에서 불필요한 전문가를 비활성화하고, STE로 학습하는 엔드-투-엔드 구조를 통해 토큰별로 활성화된 전문가 수를 동적으로 조절한다. vLLM에 CUDA 커널로 플러그인 가능하며, 중간 수준의 Sparsity에서 정확도 손실을 2% 내외로 유지하고 MoE 레이어 FLOPs를 최대 85%까지 감소시킨다. 이는 대규모 MoE 모델의 실무 배포에서 추론 속도와 처리량을 크게 향상시킨다.
핵심 기여
BEAM의 핵심 아이디어
토큰별로 Top-K 후보를 고정하게 보되, Mask Router를 통해 binary mask를 생성하고 Top-K 후보에 대한 활성화 수를 학습적으로 조정한다. 이때 Primary Router의 라우팅 및 로드 밸런싱은 고정된 상태로 두고, Mask Router가 불필요한 전문가를 제거하는 역할만 수행한다.
실용적 Plug-and-Play 배포
vLLM에 커스텀 CUDA 커널로 BEAM을 통합하여 코드 한 줄의 변경으로 동적 희소화를 구현한다. 기존 MoE 파이프라인과의 호환성을 유지하면서 실환경에서의 속도향상을 달성한다.
학습 전략 및 이론적 근거
STE를 이용한 이진 마스크의 역전파를 허용하고 Lreg를 TK 내에만 적용해 희소화를 유도한다. 손실 함수 L = Llm + αLbal + βLreg를 최적화하며, 베타 β가 희소성과 정확도의 트레이드오프를 제어한다. 마스크의 그래디언트 흐름은 Equation (12)-(14)와 3.2에서 정의된 Selective Gradient를 따른다.
대규모 모델에서의 성능 및 속도 개선
Qwen1.5-MoE-A2.7B, Qwen3-30B-A3B, DeepSeekV2-Lite 등 세 모델에서 mid sparsity에서 정확도 98% 이상을 유지하면서 Avg-K를 47–61% 감소시킨다. Extreme sparsity에서 Avg-K가 0.11까지 내려가도 성능 저하를 크게 억제하며, DeepSeekV2-Lite에서 2.5× decoding 가속, 전체 throughput은 최대 1.4× 향상된다.
실험적 분석 및 Ablation
Binary threshold τ=0.5가 최적임을 Ablation에서 확인했고, Lreg 제거, L1→L2, Soft-mask 등은 성능 저하를 초래한다. BEAM은 로드 밸런스를 유지하면서도 토큰-특이적 전문 가용성을 확보한다.
핵심 아이디어 이해하기
출발점: MoE에서의 비효율은 고정 Top-K 라우팅으로 인해 토큰의 난이도에 따라 불필요하게 많은 전문가가 활성화되는 점이다. BEAM은 Mask Router를 추가해 Top-K 후보군에서 활성화 여부를 이진화하고, 활성화 수를 토큰별로 다르게 결정하도록 학습한다. 이로써 토큰 정보량이 높은 경우에만 더 많은 전문가를 사용하고, 간단한 토큰은 적은 계산으로 처리한다. 학습은 STE를 통해 이진 마스크를 미분 가능하게 만들고, Lreg를 통해 TK 내에서의 희소성을 직접 조절한다. 결과적으로, 중간 수준의 sparsity에서도 성능 손실을 크게 줄이고, 극단적 sparsity에서도 실용적인 가속을 달성한다.
관련 Figure

레이어별 활성화와 토큰별 활성화 패턴이 토큰의 정보량에 따라 달라짐을 시각화한다.
Layer-wise Activation Pattern (BEAM의 activation 분포)
방법론
Step 1. Standard Top-K Routing: R(x)로 계산된 로짓 r에서 Top-K를 유지하고 Softmax를 적용하여 gi를 구한다. Step 2. Raw Mask Generation: m_hat = σ(xWm)로 입력 x에서 마스크 후보를 생성한다. Step 3. Binary Masking: mi = 1 if m_hat_i ≥ 0.5, 그렇지 않으면 0으로 이진화한다. Step 4. Masked Aggregation: g_hat = g ⊙ m, y = ∑ g_hat_i Ei(x)로 최종 출력을 얻는다. 학습 전략: L = Llm + αLbal + βLreg, Lreg = (1/K) ∑_{i∈TK} |m_hat_i|. STE를 이용해 역전파에서 m_hat의 그래디언트를 흘려보낸다. 초기화는 mask router를 0으로 하여 시작 시 Top-K 동작을 보존하고, 훈련 중 점진적으로 sparsity를 유도한다.
관련 Figure

BEAM의 Mask Router가 Top-K 후보에 대한 활성화를 분리해 관리하는 구조를 시각적으로 보여준다.
Vanilla Top-K MoE와 BEAM의 비교 다이어그램

Transformer 내부에서 MoE와 BEAM 컴포넌트가 결합되는 구조를 도식화한다.
Transformer Layer 안의 MoE & BEAM 블록 구성

STE 기반의 이진 마스크 학습 및 Lreg의 도입 여부를 시각적으로 설명한다.
BEAM 학습 전략 및 STE 커널 흐름
주요 결과
주요 벤치마크에서 BEAM은 mid sparsity에서 모든 모델에서 원래 성능의 98% 이상을 유지하고 Avg-K를 47–61% 감소시켰다. High sparsity에서 Avg-K가 0.14~0.56 범위까지 감소하였으며, Extreme sparsity에서도 대체로 우수한 성능 유지가 관찰되었다. 속도 측면에서 TPOT은 최소 1.3×, TTFT는 최대 1.1× 이상 개선되었고, Throughput은 1.4× 이상 향상되었으며, DeepSeekV2-Lite에서 decoding은 2.5× 가속되었다.
관련 Figure

BEAM이 중간 수준의 sparsity에서 Baseline 대비 더 높은 성능 유지와 더 큰 FLOPs 감소를 달성함을 시각적으로 보여준다.
BEAM과 Baselines의 성능- sparsity 트레이드오프 그래프

BEAM이 다양한 모델에서 속도 향상을 지속적으로 달성함을 표로 보여준다.
다양한 모델에서의 TPOT/TTFT/Throughput 비교
기술 상세
BEAM은 MoE Block 내부에 Mask Router를 추가하여 Top-K 후보에 대한 Binary Mask를 학습한다. 4단계 파이프라인으로 구성되며, 1) Top-K Routing, 2) Raw Mask 생성, 3) Binary Masking, 4) Masked Aggregation으로 출력 y를 얻는다. Mask Router의 파라미터는 Wm이며, m_hat = σ(xWm)으로 계산하고, m_i = 1{m_hat_i ≥ 0.5}로 이진화한다. 최종 g_hat = g ⊙ m이며, y = ∑ g_hat_i Ei(x)이다. 학습은 L = Llm + αLbal + βLreg 형태의 손실을 사용하며, Lreg은 TK 내의 |m_hat|의 L1 노름이다. STE를 통해 역전파에서 mask의 그래디언트를 흘려보내고, 초기엔 마스크를 0으로 초기화해 BEAM의 Top-K 동작을 보존한다. 이로써 Primary Router의 로드밸런싱과 분리된 Sparsification이 가능해져 Conflicts를 피하고 토큰-특이적 활성화 패턴을 학습한다.
한계점
A. BEAM은 세 MoE 아키텍처에서 평가되었으며, 다른 gating 구조나 전문가 세분화(more granular MoE)에서의 일반화는 추가 검증이 필요하다. B. 마스크 학습을 위한 post-training SFT가 필요해 추가 비용이 발생한다. C. Shared-expert 비율이 높은 모델에서는 BEAM의 속도 향상 여지가 상대적으로 작을 수 있다. D. 단일-GPU 설정에서의 벤치마크이므로 다GPU 환경에서의 상호작용은 추가 연구가 필요하다.
실무 활용
BEAM은 플러그앤플레이 방식으로 MoE 인퍼런스를 가속한다. vLLM에의 통합이 용이하며, CUDA 커널로 구현되어 코드 변경이 최소화된다.
- 대규모 MoE 기반 LLM의 실시간 서비스에서 Latency를 낮추고 QPS를 높임
- 지속적 추론 워크로드에서 토큰 특성에 따른 동적 Sparsity 적용
- 하드웨어 제약이 있는 환경에서 MoE FLOPs 감소를 통한 에너지 효율 개선
- 다양한 모델에서 β 하이퍼파라미터를 조정해 latency-accuracy 트레이드오프를 맞춤화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.