AWS와 llm-d를 활용한 대규모 LLM 추론 최적화 및 분리형 추론 도입

핵심 요약

대형 언어 모델(LLM) 추론 시 발생하는 자원 불균형 문제를 해결하기 위해 AWS는 오픈소스 프레임워크인 llm-d를 도입했다. LLM 추론은 연산 집약적인 프리필(Prefill) 단계와 메모리 대역폭 중심의 디코드(Decode) 단계로 나뉘는데, 기존 방식은 이를 동일 하드웨어에서 처리하여 효율이 낮았다. llm-d는 이 두 단계를 물리적으로 분리하는 분리형 서빙(Disaggregated Serving) 아키텍처를 통해 각 단계에 최적화된 자원을 할당한다. AWS의 Elastic Fabric Adapter(EFA)와 NIXL 라이브러리를 결합하여 노드 간 고속 KV 캐시 전송을 구현함으로써 대규모 에이전트 워크로드와 MoE 모델의 추론 성능을 획기적으로 개선했다.

배경

AWS CLI 및 kubectl 설정, Helm 및 helmfile 사용법, Amazon SageMaker HyperPod 또는 EKS 클러스터 접근 권한, vLLM 및 KV 캐시 메커니즘에 대한 이해

대상 독자

대규모 LLM 서비스를 운영하며 추론 비용과 지연 시간 최적화가 필요한 MLOps 엔지니어 및 인프라 아키텍트

의미 / 영향

이 기술은 LLM 추론을 단일 모델 실행 단위가 아닌 클러스터 수준의 자원 오케스트레이션 문제로 전환시킨다. 특히 DeepSeek-R1과 같은 MoE 모델의 대중화와 에이전트 기반의 긴 추론 체인이 늘어나는 트렌드에서 하드웨어 효율을 극대화할 수 있는 표준 아키텍처가 될 것으로 전망된다.

섹션별 상세

LLM 추론 과정을 프리필과 디코드 단계로 분리하여 각 단계의 리소스 프로필에 맞게 하드웨어를 독립적으로 확장하고 최적화하는 분리형 서빙 아키텍처를 구현했다. 프리필 서버는 입력 프롬프트 처리에 집중하고 디코드 서버는 저지연 토큰 생성에 집중함으로써 GPU 활용도를 극대화한다. 입력 길이가 길고 출력 길이가 짧은 워크로드의 경우 프리필 노드 비중을 높여 비용 효율적인 확장이 가능하다.

SageMaker HyperPod 관측성 대시보드 스크린샷 — ScreenshotGPU 사용률, 온도, 텐서 코어 활용도 및 EFA 네트워크 메트릭을 실시간으로 모니터링하는 화면이다. 분리형 추론 환경에서 각 노드의 자원 상태를 추적하여 최적화에 활용할 수 있음을 보여준다.

llm-d 분리형 추론 vs 표준 vLLM 출력 처리량 비교 그래프 — Chart동시 요청 수(Concurrent Requests)가 증가함에 따라 llm-d의 분리형 아키텍처가 표준 vLLM보다 훨씬 높은 출력 처리량(Tokens/s)을 기록함을 보여준다. 특히 고부하 상황에서 성능 격차가 벌어지는 것을 확인할 수 있다.

NVIDIA Inference Xfer Library(NIXL)와 AWS EFA를 활용하여 프리필 노드에서 생성된 KV 캐시 데이터를 디코드 노드로 RDMA 기반 고속 전송을 수행한다. NIXL은 CPU/GPU 메모리와 S3 등 다양한 저장소를 아우르는 메모리 추상화 계층을 제공하며, 운영체제를 거치지 않는 제로 카피(Zero-copy) 네트워킹을 통해 노드 간 전송 오버헤드를 최소화한다. 이는 분리형 아키텍처에서 가장 중요한 지표인 첫 토큰 생성 시간(TTFT) 단축에 핵심적인 역할을 한다.

분리형 추론을 위한 AWS 통신 스택 다이어그램 — DiagramvLLM과 llm-d가 NIXL 라이브러리를 통해 통신하며, 하부 계층에서 UCX/Libfabric과 EFA를 사용하여 Ec2 노드 간 데이터를 전송하는 구조를 보여준다. 프리필과 디코드 단계가 독립적인 vLLM 인스턴스로 분리되어 있음을 시각화한다.

지능형 추론 스케줄러를 도입하여 분산된 여러 복제본(Replica) 사이에서 KV 캐시의 위치를 파악하고 요청을 최적의 노드로 라우팅한다. vLLM의 자동 접두사 캐싱(Automatic Prefix Caching) 기능을 다중 노드 환경으로 확장하여, 동일한 시스템 프롬프트나 대화 이력을 가진 요청을 해당 캐시가 존재하는 서버로 보낸다. 이를 통해 중복 연산을 방지하고 에이전트 워크로드와 같은 반복적인 컨텍스트 재사용 시 처리량을 크게 높인다.

SageMaker HyperPod EKS 클러스터 내의 추론 요청 흐름도 — Diagram사용자 요청이 로드 밸런서를 거쳐 인퍼런스 게이트웨이(Istio)에 도달한 후, 엔드포인트 피커가 최적의 프리필 및 디코드 워커를 선택하는 과정을 설명한다. NIXL을 통한 노드 간 KV 전송 경로가 명확히 표시되어 있다.

DeepSeek-R1과 같은 전문가 혼합(MoE) 모델을 위해 전문가 병렬 처리(Expert Parallelism)와 데이터 병렬 처리를 결합한 최적화된 배포 패턴을 제공한다. 모델의 전문가 계층을 여러 노드에 수평적으로 분산 배치하고 개선된 통신 패턴을 적용하여 대규모 MoE 모델의 종단 간 지연 시간을 단축한다. 복잡한 병렬 처리 요구 사항을 Kubernetes 네이티브 방식으로 관리하여 운영 효율성을 확보했다.

GPU 메모리 한계를 극복하기 위해 KV 캐시 항목을 CPU 메모리나 로컬 디스크로 오프로딩하는 계층형 접두사 캐싱(Tiered Prefix Caching) 기능을 지원한다. vLLM의 기본 캐싱 기능은 개별 인스턴스의 GPU 메모리 용량에 제한되지만, llm-d는 이를 외부 저장 계층으로 확장하여 유효 캐시 크기를 대폭 늘린다. 이는 매우 긴 문맥을 다루는 RAG 시스템이나 장기 대화가 필요한 챗봇 서비스에서 성능 유지에 필수적이다.

실무 Takeaway

입력 프롬프트가 길고 반복되는 에이전트 워크로드에 분리형 추론을 적용하면 표준 vLLM 배포 대비 출력 처리량을 최대 70%까지 향상시킬 수 있다.
AWS EFA와 NIXL 기반의 전용 컨테이너(ghcr.io/llm-d/llm-d-aws)를 사용하면 복잡한 네트워크 설정 없이도 고성능 분산 추론 환경을 구축할 수 있다.
워크로드의 특성(입력/출력 길이 비율)에 따라 프리필과 디코드 노드의 비율을 동적으로 조정함으로써 인프라 비용 대비 성능을 최적화해야 한다.

언급된 리소스

GitHubllm-d GitHub Repository

문서llm-d Documentation

핵심 요약

배경

AWS CLI 및 kubectl 설정, Helm 및 helmfile 사용법, Amazon SageMaker HyperPod 또는 EKS 클러스터 접근 권한, vLLM 및 KV 캐시 메커니즘에 대한 이해

대상 독자

대규모 LLM 서비스를 운영하며 추론 비용과 지연 시간 최적화가 필요한 MLOps 엔지니어 및 인프라 아키텍트

의미 / 영향

섹션별 상세

실무 Takeaway

입력 프롬프트가 길고 반복되는 에이전트 워크로드에 분리형 추론을 적용하면 표준 vLLM 배포 대비 출력 처리량을 최대 70%까지 향상시킬 수 있다.
AWS EFA와 NIXL 기반의 전용 컨테이너(ghcr.io/llm-d/llm-d-aws)를 사용하면 복잡한 네트워크 설정 없이도 고성능 분산 추론 환경을 구축할 수 있다.
워크로드의 특성(입력/출력 길이 비율)에 따라 프리필과 디코드 노드의 비율을 동적으로 조정함으로써 인프라 비용 대비 성능을 최적화해야 한다.

언급된 리소스

GitHubllm-d GitHub Repository

문서llm-d Documentation

AWS와 llm-d를 활용한 대규모 LLM 추론 최적화 및 분리형 추론 도입

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

AWS와 llm-d를 활용한 대규모 LLM 추론 최적화 및 분리형 추론 도입

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글