Federation of Experts(FoE): 대형 언어 모델의 통신 효율적 분산 추론

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

MoE 기반 LLM의 확장은 활성 전문가 간 라우팅이 네트워크 대역폭에 의존하는 과부하를 유발한다. FoE는 KV heads와 전문가를 그룹 단위로 분리하고, 각 그룹 내에서만 라우팅을 수행하며, 그룹 간에는 합산으로 결과를 공유한다. 이 설계는 inter-node 네트워크 트래픽을 줄이고 Local Activation Rate를 높여 단일 노드에서의 지연과 다중 노드에서의 스케일링을 개선한다. 실험은 LongBench에서 MoE 대비 엔드-투-엔드 전방 통과(latency) 및 TTFT, TBT를 각각 최대 5.2×, 3.62×, 1.95× 개선하며, 동일한 크기/학습 구성의 MoE와 비슷한 생성 품질을 유지함을 보여준다.

왜 중요한가

MoE 기반 LLM의 확장은 활성 전문가 간 라우팅이 네트워크 대역폭에 의존하는 과부하를 유발한다. FoE는 KV heads와 전문가를 그룹 단위로 분리하고, 각 그룹 내에서만 라우팅을 수행하며, 그룹 간에는 합산으로 결과를 공유한다. 이 설계는 inter-node 네트워크 트래픽을 줄이고 Local Activation Rate를 높여 단일 노드에서의 지연과 다중 노드에서의 스케일링을 개선한다. 실험은 LongBench에서 MoE 대비 엔드-투-엔드 전방 통과(latency) 및 TTFT, TBT를 각각 최대 5.2×, 3.62×, 1.95× 개선하며, 동일한 크기/학습 구성의 MoE와 비슷한 생성 품질을 유지함을 보여준다.

핵심 기여

FoE 아키텍처의 제시

FoE는 전문가(E)와 KV heads를 서로 독립된 그룹(H개)으로 분리하고, 각 그룹이 1/H의 KV-head와 1/H의 전문가를 가지도록 구성한다. 토큰의 라우팅은 그룹별로 k/H개의 전문가를 선택하도록 하여, 모든 그룹에서 매 층마다 토큰이 모든 그룹에 기여하도록 한다. 그룹 간의 레스트럴(rfull) 합산은 크로스-그룹 All-Reduce로 수행되며, 디스패치/결합은 각 그룹 내에서만 수행된다.

통신 비용의 대폭 감소

FoE에서 ρfoe = min(H/G, 1)으로 로컬에서 해결되는 선택의 비율을 보장하고, intra-group All-to-All를 유지하되 inter-group 교차 트래픽은 최소화한다. 결과적으로 단일 노드에서의 A2A 항은 제거되거나 축소되고, 다중 노드에서는 inter-node 트래픽이 감소한다.

LongBench에서의 실험적 증거

LongBench에서 FoE는 단일/다중 노드에서 엔드-투-엔드 forward-pass latency를 최대 5.2× 감소시키고, TTFT를 최대 3.62× 감소시키며, TBT를 최대 1.95× 감소시켰다. 또한 생성 품질은 같은 크기·학습 구성의 MoE와 비슷하거나 차이가 작다.

핵심 아이디어 이해하기

MoE는 토큰당 top-k 전문가를 선택해 부분적으로 활성화된 파라미터를 사용한다. 이때 모든 GPU 간의 all-to-all 라우팅이 필요한 것이 병목으로 작용한다. FoE는 한 층의 MoE 블록을 H개의 독립된 expert group으로 재구성하여, 각 그룹이 자체 GPU 집합에서 라우팅과 업데이트를 수행하도록 한다. 그룹 간의 잔차를 cross-group all-reduce로 합산하고, dispatch/combine은 그룹 내부에 머물게 하여 inter-node 트래픽을 줄인다. 이 설계는 LAR을 높이고, GPU 간 부하균형을 개선하며, 결국 전반적인 추론 through-put과 지연을 개선한다.

단일 노드에서의 통신은 k×량이 교차 그룹으로 분산되므로, A2A 항이 거의 제거되거나 대폭 축소된다. FoE의 ρfoe = min(H/G, 1)로 로컬에서 해결되는 비율이 보장되며, 대규모 클러스터에서도 intra-node 트래픽은 축소된 채 유지된다. 이로써 tail latency를 줄이고 전체 시스템의 평균/최댓값 지연을 낮춘다.

방법론

FoE 설계의 핵심 아이디어는 그룹화된 MoE 블록이다. 입력 토큰 i에 대해 각 그룹 h는 Eh = {h·(E/H), ..., (h+1)·(E/H) − 1}에 속한 상위 k/H 전문가를 선택한다. 라우터는 rfull[i]를 이용해 각 그룹이 독립적으로 TopK을 수행하고, r[h,i]를 이용한 FFNe를 적용한다. l=1에서 입력 임베딩 x(1)에서 하나의 공유 어텐션으로 residual r을 얻고, 이를 H×S×d 형태의 per-group 표현 x[h,i]로 변환한다. 마지막 MoE 레이어 l=L의 경우 x′를 각 그룹별 잔차와 함께 합산해 단일 R^{S×d}로 환원한다. ρ는 각각의 토큰이 로컬에서 해결되는 비율로 정의되며, MoE의 ρmoe = 1/G, FoE의 ρfoe = min(H/G, 1)으로 표현된다. 실험적으로 단일 노드에서 FoE의 A2A가 없어지거나 감소하고, 다중 노드에서 교차 그룹 All-Reduce의 볼륨이 작은 값을 가진다.

주요 결과

4.3 End-to-End Inference Performance: 단일 노드에서 TTFT은 MoE 3.710s에서 FoE 1.394s로 감소, p99 TTFT은 6.437s에서 3.528s로 축소. TBT는 0.780s에서 0.566s로 감소, E2E는 202.7s에서 145.7s로 감소했다. 0.75 스케일에서도 FoE가 대체로 우수하며, 1.5 스케일에서도 비슷한 추세를 보인다. 4.4 다중 노드에서는 TTFT가 MoE 3.883s에서 FoE 1.128s로 감소, E2E는 191.5s에서 139.5s로 감소했다. 4.5에서 FoE의 LAR은 1.0으로 완벽한 로컬 로딩 밸런스를 보장하며, 기존 방법들보다 GPU 부하 불균형이 현저히 낮다. 4.6 Generation Quality에서는 7B 모델에서 MoE 대비 FoE가 ARC-Easy 59.6% vs 58.2%, COPA 60.4% vs 60.9%, HellaSwag 65.0% vs 66.0%, PIQA 33.7% vs 33.1%, SciQ 66.9% vs 66.6%를 기록하며, 1B 모델의 경우에도 비슷한 수준의 성능을 유지한다.

기술 상세

Mixture of Experts(MoE)와 FoE의 per-layer 계산 비교에서 FoE는 x ∈ R^{H×S×d} 표현을 사용해 각 그룹별로 독립적으로 routing과 FFN 업데이트를 수행한다. FoE에서의 라우팅은 I_h[i], wh[i] = TopK_{e∈Eh}(g[i]), k/H으로 각 그룹이 자율적으로 선택하도록 한다. 첫 MoE 레이어(l=1)는 임베딩에서 단일 공유 어텐션으로 계산하고, 중간 l에서 r[h,i]와 rfull[i]의 잔차를 이용한 cross-group 합산으로 x′를 얻는다. A2A 볼륨은 intra-node에서 2k(G−H)/G, inter-node에서 2(min(G,H)−1)/min(G,H)이며, 전체 시간은 대역폭 비율 r = Bintra/Binter에 따라 보정된다. FoE의 이론적 asymptote는 Tmoe/Tfoe → (kH r)/(kH + r(H−1)) (N→∞, G=nkG)로, 예시로 k=8, H=8, r=20일 때 약 6.3×이다.

한계점

FoE는 분할된 그룹 간의 더 복잡한 구성 및 하이퍼파라미터 조정 필요성을 야기한다. 단일 GPU 환경에서는 이점이 없으며 cross-group all-reduce의 추가 오버헤드가 존재한다. 동형 토폴로지를 가정한 평가이며, 비대칭 intra-/inter-node 대역폭에서는 배치 위치 지정 조정이 필요하다.

실무 활용

FoE는 MoE 기반 LLM 추론 엔진에서 inter-노드 네트워크 트래픽을 구조적으로 줄이도록 설계되어, 단일 노드 및 다중 노드 배치에서 추론 성능과 예측 안정성을 개선한다. 생성 품질은 MoE와 유사하게 유지된다.

대형 MoE 기반 LLM의 단일 노드 프런트엔드 서비스의 응답성 개선
다중 노드 InfiniBand 클러스터에서의 추론 스케일링 향상
Edge/현장 박스에서의 로컬 활성화 비율 보장을 통한 예측 지연 감소

코드 공개 여부: 미확인

키워드

FoEMoEKV headslocal activation rateall-to-allintra-nodeLongBenchinference throughput