Llama 3 70B 에이전트의 KV 캐시 최적화로 추론 지연 시간 78% 단축

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Llama 3 70B 기반 에이전트에서 KV 캐시를 유지하고 수동으로 관리하여 추론 지연 시간을 2.3초에서 0.5초로 단축함.

사용자가 Llama 3 70B 기반 에이전트의 순차적 툴 호출 과정에서 발생하는 높은 지연 시간을 해결하기 위해 KV 캐시를 수동으로 관리하는 최적화 방식을 공유했다.

에이전트의 순차적 작업에서 KV 캐시 관리가 추론 성능의 핵심 병목임이 확인됐다. 수동 캐시 관리는 메모리 효율을 높이지만, 작업 단계가 길어질수록 파편화 관리라는 새로운 기술적 과제를 제시한다.

기존의 매 단계마다 전체 컨텍스트를 새로 처리하는 방식은 2.3초의 지연 시간을 발생시켰으며, 이 중 60%가 프롬프트 처리 과정에서 소모됐다.

vLLM의 자동 프리픽스 캐싱을 비활성화하고 KV 캐시를 세션 간 유지하는 수동 관리 방식을 도입하여 단계당 지연 시간을 0.5초로 단축했다.

Llama 3 70B 모델의 FP16 KV 캐시는 32k 컨텍스트 기준 세션당 약 10GB를 점유하며, 4개 이상의 에이전트 동시 실행 시 40GB 이상의 메모리가 필요하다.

캐시 파편화 문제를 해결하기 위해 남은 예상 단계가 적은 세션에 우선순위를 부여하는 LRU 스케줄러를 구현했으나, 50단계 이상에서는 성능 저하가 발생한다.