Together AI, 캐시 인식형 프리필-디코드 분리(CPD) 아키텍처 공개

핵심 요약

대규모 언어 모델(LLM)의 컨텍스트 길이가 길어짐에 따라 첫 토큰 생성 시간(TTFT)과 추론 효율성이 중요한 과제로 부상하고 있습니다. Together AI는 기존의 프리필-디코드 분리(PD) 구조를 확장하여 캐시 히트율에 따라 워크로드를 분리하는 '캐시 인식형 프리필-디코드 분리(CPD)' 아키텍처를 제안했습니다. 이 시스템은 재사용 가능한 컨텍스트를 가진 'Warm' 요청과 새로운 컨텍스트인 'Cold' 요청을 서로 다른 노드에서 처리함으로써 병목 현상을 해결합니다. 결과적으로 혼합 워크로드 환경에서 지속 가능한 초당 쿼리 수(QPS)를 최대 35-40% 개선하고 꼬리 지연 시간(Tail Latency)을 안정화했습니다.

배경

LLM 추론 구조(Prefill vs Decode), KV Caching 메커니즘, 분산 시스템 및 RDMA 네트워킹 기초

대상 독자

LLM 추론 인프라 엔지니어 및 대규모 AI 서비스 개발자

의미 / 영향

이 기술은 RAG나 에이전트 시스템처럼 동일한 컨텍스트를 반복 사용하는 서비스의 운영 비용을 낮추고 사용자 경험을 개선할 것입니다. 특히 컨텍스트 윈도우가 계속 커지는 추세에서 모델 아키텍처 개선만큼이나 시스템 수준의 스케줄링과 캐시 관리가 중요해짐을 시사합니다.

섹션별 상세

CPD 아키텍처는 추론 노드를 Pre-Prefill, Prefill, Decode의 세 가지 역할로 세분화하여 관리합니다. Pre-Prefill 노드는 캐시 재사용률이 낮은 Cold 요청을 전담하여 새로운 컨텍스트를 계산하고 이를 분산 KV 캐시에 기록합니다. 일반 Prefill 노드는 캐시 재사용률이 높은 Warm 요청을 우선 처리하며, 계산 대신 캐시에서 KV 블록을 읽어와 처리 속도를 높입니다. Decode 노드는 프리필 단계의 간섭 없이 토큰 생성에만 집중하여 지연 시간을 최소화합니다.

시스템의 핵심은 GPU 메모리, 호스트 DRAM, 그리고 RDMA로 연결된 클러스터 전체 분산 캐시로 구성된 3단계 KV 캐시 계층 구조입니다. Cold 요청이 처음 처리될 때 생성된 KV 상태는 분산 캐시에 저장되며, 이후 동일한 컨텍스트가 포함된 요청이 들어오면 수 초의 계산 과정을 수백 밀리초의 데이터 전송으로 대체합니다. 자주 액세스되는 컨텍스트는 점진적으로 GPU 메모리에 가깝게 배치되어 지연 시간을 더욱 단축시키는 효과를 냅니다.

캐시 인식 라우터는 각 요청의 프롬프트가 캐시에서 얼마나 서비스될 수 있는지 추정하여 최적의 노드로 라우팅합니다. 재사용률이 낮은 요청은 Pre-Prefill 계층으로, 높은 요청은 Prefill 계층으로 직접 전달함으로써 무거운 Cold 프리필 작업이 공유 자원을 독점하여 Warm 요청의 처리를 방해하는 큐 대기 현상을 방지합니다. 이러한 워크로드 격리는 시스템이 부하 상황에서도 더 우아하게 확장될 수 있도록 지원합니다.

NVIDIA B200 GPU를 사용한 벤치마크 결과, CPD는 기존 PD 방식 대비 지속 가능한 QPS를 35-40% 향상시켰습니다. 기존 방식은 프리필 용량 포화 시 지연 시간이 급격히 증가하는 반면, CPD는 Cold와 Warm 요청을 분리함으로써 더 높은 부하에서도 1초 미만의 중간값 TTFT를 유지했습니다. 특히 디코드 용량을 확장했을 때도 CPD의 격리 구조는 전체 파이프라인의 효율적인 활용을 가능하게 하여 일관된 성능 우위를 보였습니다.