핵심 요약
대규모 언어 모델(LLM)의 컨텍스트 길이가 길어짐에 따라 첫 토큰 생성 시간(TTFT)과 추론 효율성이 중요한 과제로 부상하고 있습니다. Together AI는 기존의 프리필-디코드 분리(PD) 구조를 확장하여 캐시 히트율에 따라 워크로드를 분리하는 '캐시 인식형 프리필-디코드 분리(CPD)' 아키텍처를 제안했습니다. 이 시스템은 재사용 가능한 컨텍스트를 가진 'Warm' 요청과 새로운 컨텍스트인 'Cold' 요청을 서로 다른 노드에서 처리함으로써 병목 현상을 해결합니다. 결과적으로 혼합 워크로드 환경에서 지속 가능한 초당 쿼리 수(QPS)를 최대 35-40% 개선하고 꼬리 지연 시간(Tail Latency)을 안정화했습니다.
배경
LLM 추론 구조(Prefill vs Decode), KV Caching 메커니즘, 분산 시스템 및 RDMA 네트워킹 기초
대상 독자
LLM 추론 인프라 엔지니어 및 대규모 AI 서비스 개발자
의미 / 영향
이 기술은 RAG나 에이전트 시스템처럼 동일한 컨텍스트를 반복 사용하는 서비스의 운영 비용을 낮추고 사용자 경험을 개선할 것입니다. 특히 컨텍스트 윈도우가 계속 커지는 추세에서 모델 아키텍처 개선만큼이나 시스템 수준의 스케줄링과 캐시 관리가 중요해짐을 시사합니다.
섹션별 상세
이미지 분석
.png)
CPD가 기존 분리형 설계(Baseline)보다 지속 가능한 QPS를 약 35-40% 더 높게 유지할 수 있음을 보여줍니다. 특히 노드 구성(1D, 2D)에 관계없이 CPD가 일관되게 높은 처리량을 기록합니다.
기존 Baseline 대비 CPD의 최대 달성 가능 QPS 비교 차트

캐시 인식 라우터가 요청을 Pre-Prefill, Prefill, Decode 노드로 분류하여 전달하고, 분산 KV 캐시와 상호작용하는 전체 구조를 시각화합니다. Cold/Warm 요청에 따른 데이터 흐름을 명확히 보여줍니다.
CPD 시스템 아키텍처 개요도

Cold 요청(신규 계산 및 캐시 쓰기), L3 캐시 히트 Warm 요청(분산 캐시 읽기), 로컬 히트 Warm 요청(로컬 메모리 재사용)의 세 가지 시나리오별 작동 방식을 설명합니다.
요청 반복에 따른 3가지 처리 패턴 시퀀스 다이어그램

Target QPS 증가에 따른 TTFT(p50, p90) 변화와 프리필/생성 처리량을 비교합니다. CPD가 부하가 높은 상황에서도 TTFT를 낮게 유지하며 프리필 효율성을 극대화함을 수치로 증명합니다.
부하 증가에 따른 TTFT 및 처리량 성능 지표 그래프
실무 Takeaway
- 긴 컨텍스트 워크로드에서 프리필 단계의 병목을 해결하기 위해 캐시 히트율 기반의 노드 분리가 필수적이다.
- 분산 KV 캐시와 RDMA를 활용하면 수십 초의 프리필 계산을 수백 밀리초의 데이터 전송으로 대체하여 TTFT를 획기적으로 낮출 수 있다.
- 단순한 하드웨어 확장이 아닌, 워크로드 특성에 따른 지능적 라우팅과 자원 격리가 대규모 추론 시스템의 효율성을 결정한다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료