핵심 요약
대규모 MoE 모델 서빙 시 사용되는 WideEP 구조는 데이터 병렬(DP) 어텐션과 전문가 병렬(EP) 레이어를 결합하지만, 단일 랭크 장애가 전체 DP 그룹의 통신을 마비시키는 취약점이 존재한다. Ray Serve LLM은 '갱 스케줄링(Gang Scheduling)' 프리미티브를 활용하여 DP 그룹을 하나의 논리적 단위로 관리하는 결함 허용 메커니즘을 도입했다. 이 방식은 특정 랭크 장애 시 해당 그룹 전체를 즉시 격리하고 원자적으로 재구축함으로써 다른 건강한 그룹의 서비스 연속성을 보장한다. 결과적으로 32~128개에 달하는 GPU 그룹의 장애 반경을 최소화하고, 그룹 단위의 오토스케일링을 통해 대규모 추론 인프라의 가용성을 극대화한다.
배경
Ray Serve 및 vLLM 기본 지식, MoE(Mixture of Experts) 아키텍처 이해, 분산 시스템의 데이터 병렬(DP) 및 전문가 병렬(EP) 개념
대상 독자
프로덕션 환경에서 대규모 MoE 모델을 서빙하는 MLOps 엔지니어 및 인프라 개발자
의미 / 영향
이 기술은 대규모 MoE 모델 서빙의 가장 큰 약점인 분산 시스템의 취약성을 해결합니다. 단일 GPU 장애가 수백 개의 GPU 클러스터를 멈추게 하던 문제를 그룹 단위 격리로 해결함으로써, 기업들이 DeepSeek와 같은 거대 모델을 더 안정적이고 비용 효율적으로 운영할 수 있게 합니다.
섹션별 상세

from ray.serve.llm import (
build_dp_deployment,
LLMConfig,
ModelLoadingConfig,
)
llm_config = LLMConfig(
model_loading_config=ModelLoadingConfig(
model_id="microsoft/Phi-tiny-MoE-instruct",
model_source="microsoft/Phi-tiny-MoE-instruct",
),
deployment_config=dict(
num_replicas=2, # <--- Number of DP groups
),
engine_kwargs=dict(
tensor_parallel_size=1,
pipeline_parallel_size=1,
data_parallel_size=2, # <--- DP group size
),
)
app = build_dp_deployment(llm_config)
deployment_handle = serve.run(app, blocking=False)Ray Serve LLM에서 DP 그룹 결함 허용을 활성화하기 위한 기본 배포 설정 예시



llm_config = LLMConfig(
model_loading_config=ModelLoadingConfig(
model_id="microsoft/Phi-tiny-MoE-instruct",
model_source="microsoft/Phi-tiny-MoE-instruct",
),
deployment_config=dict(
num_replicas="auto",
autoscaling_config=dict(
min_replicas=1, # <-- Min. number of DP groups
max_replicas=4, # <-- Max. number of DP groups
)
),
engine_kwargs=dict(
tensor_parallel_size=1,
pipeline_parallel_size=1,
data_parallel_size=2, # <--- DP group size
),
)DP 그룹 경계를 준수하며 자동으로 확장/축소되도록 설정하는 오토스케일링 예시

실무 Takeaway
- 대규모 MoE 모델 배포 시 GPU 장애로 인한 전체 서비스 중단을 막으려면 Ray Serve의 DP 그룹 결함 허용 기능을 활성화하여 장애 반경을 그룹 단위로 격리해야 한다.
- 처리량 효율을 위해 EP 그룹 너비를 무조건 키우기보다, GPU당 처리량이 최적화되는 최소 수준(예: 32~96)으로 설정하여 장애 발생 시의 리스크를 분산해야 한다.
- 오토스케일링 설정 시 `data_parallel_size`를 고려하여 그룹 단위로 복제본이 생성되도록 구성함으로써 서빙 토폴로지의 일관성을 보장해야 한다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.