핵심 요약
멀티턴(multi-turn) 기반의 에이전틱(agentic) 대형 언어 모델(LLM) 추론 성능은 연산보다는 키-값 캐시(KV-Cache) 스토리지 입출력(I/O)에 의해 점점 더 좌우되고 있습니다. 기존의 분리형 아키텍처(disaggregated architectures)에서는 외부 스토리지로부터 방대한 KV 캐시를 로드할 때 근본적인 불균형이 발생합니다. 즉, 프리필 엔진(prefill engines)의 스토리지 네트워크 카드(NIC)는 대역폭이 포화 상태가 되는 반면, 디코딩 엔진(decoding engines)의 카드는 유휴 상태로 남게 됩니다. 이러한 비대칭성은 전체 시스템 처리량을 심각하게 제한합니다. 본 논문에서는 이중 경로 KV 캐시 로딩을 도입하여 이 병목 현상을 해결하는 추론 시스템인 DualPath를 제안합니다. 전통적인 '스토리지-프리필' 경로 외에도, DualPath는 KV 캐시를 디코딩 엔진으로 로드한 후 컴퓨팅 네트워크상의 원격 직접 메모리 접근(RDMA)을 통해 프리필 엔진으로 효율적으로 전송하는 새로운 '스토리지-디코딩' 경로를 활성화합니다. DualPath는 네트워크 혼잡을 본질적으로 피하고 지연 시간에 민감한 모델 실행 통신과의 간섭을 방지하는 이 최적화된 데이터 경로를 프리필 및 디코딩 엔진 간의 부하를 동적으로 조절하는 글로벌 스케줄러와 결합합니다. 실제 에이전틱 워크로드를 사용한 세 가지 모델 평가 결과, DualPath는 사내 추론 시스템에서 오프라인 추론 처리량을 최대 1.87배 향상시켰습니다. 또한 서비스 수준 목표(SLO)를 위반하지 않으면서 온라인 서빙 처리량을 평균 1.96배 개선할 수 있습니다.
핵심 기여
이중 경로 KV 캐시 로딩 아키텍처
기존 프리필 엔진 중심의 로딩 방식에서 벗어나 디코딩 엔진의 유휴 대역폭을 활용하는 새로운 데이터 경로를 설계하여 스토리지 NIC의 병목 현상을 해소함.
RDMA 기반 고속 데이터 전송 기법
디코딩 엔진에 로드된 KV 캐시를 컴퓨팅 네트워크를 통해 프리필 엔진으로 전송할 때 RDMA를 사용하여 CPU 오버헤드와 지연 시간을 최소화함.
동적 부하 분산 글로벌 스케줄러
프리필과 디코딩 엔진의 실시간 대역폭 사용량 및 큐 상태를 분석하여 최적의 데이터 로딩 경로를 결정하는 지능형 스케줄링 알고리즘을 도입함.
방법론
DualPath는 스토리지에서 프리필 엔진으로 직접 데이터를 보내는 경로와, 스토리지에서 디코딩 엔진을 거쳐 RDMA로 프리필 엔진에 전달하는 경로를 병렬로 운영한다. 글로벌 스케줄러는 각 엔진의 NIC 대역폭 사용량과 큐 상태를 분석하여 KV 캐시 로딩 작업을 분배하며, 이를 통해 특정 노드에 집중되는 I/O 부하를 전체 클러스터로 분산한다.
주요 결과
사내 추론 시스템의 세 가지 모델 실험에서 오프라인 처리량은 최대 1.87배 증가했으며, 온라인 서빙 환경에서는 SLO를 준수하면서도 평균 1.96배의 처리량 향상을 기록했다. 특히 에이전틱 워크로드와 같이 멀티턴 대화가 잦아 KV 캐시 재사용 및 로딩이 빈번한 환경에서 성능 개선 효과가 뚜렷하게 나타났다.
시사점
에이전틱 LLM 서비스 운영 시 발생하는 스토리지 I/O 병목을 하드웨어 추가 없이 소프트웨어 아키텍처 개선만으로 해결할 수 있음을 보여준다. 특히 대규모 GPU 클러스터에서 디코딩 노드의 유휴 자원을 활용하여 전체 시스템 효율을 극대화하려는 인프라 엔지니어들에게 실질적인 최적화 방향을 제시한다.
키워드
섹션별 상세
이중 경로 KV 캐시 로딩 아키텍처
RDMA 기반 고속 데이터 전송 기법
동적 부하 분산 글로벌 스케줄러
AI 요약 · 북마크 · 개인 피드 설정 — 무료