핵심 요약
에이전트 및 추론형 AI 워크로드의 급증으로 LLM 추론 자원 최적화가 필수적인 상황에서 AWS는 오픈소스 프레임워크 llm-d를 도입했다. llm-d는 추론의 두 핵심 단계인 Prefill(연산 중심)과 Decode(메모리 중심)를 물리적으로 분리하여 각각 최적의 하드웨어에서 실행하는 분산 서빙 아키텍처를 제공한다. AWS의 EFA(Elastic Fabric Adapter)와 NIXL 라이브러리를 결합하여 노드 간 KV 캐시 전송 오버헤드를 최소화했으며, 지능형 스케줄러를 통해 캐시 지역성을 고려한 라우팅을 수행한다. 벤치마크 결과 기존 vLLM 배포 방식 대비 처리량이 최대 70% 향상되었으며, SageMaker HyperPod 및 EKS 환경에서 즉시 배포 가능하다.
배경
Kubernetes (EKS/SageMaker HyperPod) 운영 지식, vLLM 및 PagedAttention 개념 이해, AWS EFA 및 고성능 네트워킹 기초 지식
대상 독자
대규모 LLM 서비스를 운영하며 추론 비용 절감과 성능 최적화가 필요한 MLOps 및 인프라 엔지니어
의미 / 영향
이 기술은 LLM 추론의 물리적 한계를 아키텍처적으로 극복하여 대규모 에이전트 시스템 운영 비용을 획기적으로 낮출 수 있다. 특히 AWS 인프라에 최적화된 전송 계층을 제공함으로써 클라우드 환경에서의 고성능 분산 추론 표준을 제시한다.
섹션별 상세

args:
- "--block-size"
- "128"
- "--kv-transfer-config"
- '{"kv_connector":"NixlConnector", "kv_role":"kv_both","kv_connector_extra_config": {"backends": ["LIBFABRIC"]}}'
- "--max-model-len"
- "32000"
// ...(중략)
resources:
limits:
vpc.amazonaws.com/efa: 4vLLM 실행 시 NIXL 커넥터와 Libfabric 백엔드를 사용하여 EFA 기반의 KV 캐시 전송을 설정하는 예시


실무 Takeaway
- 긴 입력 프롬프트를 처리하는 RAG나 에이전트 시스템에 llm-d의 분산 추론을 적용하면 기존 vLLM 대비 최대 70%의 처리량 향상을 기대할 수 있다.
- AWS EFA와 NIXL을 결합한 RDMA 전송 방식을 사용하여 분산 노드 간 KV 캐시 공유 시 발생하는 네트워크 병목 현상을 해결할 수 있다.
- SageMaker HyperPod EKS 환경에서 제공되는 전용 컨테이너 이미지를 활용하여 복잡한 분산 추론 인프라를 Kubernetes 네이티브 방식으로 신속하게 구축 가능하다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.