TokenSpeed: 에이전트 워크로드를 위한 광속 LLM 추론 엔진

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

TokenSpeed는 코딩 에이전트와 같은 긴 컨텍스트 및 다회차 대화 워크로드에 특화된 차세대 LLM 추론 엔진입니다. 컴파일러 기반의 모델링 메커니즘, C++ 상태 머신 스케줄러, 그리고 NVIDIA Blackwell 하드웨어에 최적화된 MLA 커널을 통해 추론 효율을 극대화했습니다. 벤치마크 결과 Kimi K2.5 모델 기준 TensorRT-LLM보다 약 11% 높은 처리량을 기록했으며, 특히 MLA 디코드 지연 시간을 절반 수준으로 단축했습니다. 이 엔진은 vLLM 등 주요 오픈소스 프로젝트와 협력하며 프로덕션 환경의 비용 절감과 성능 향상을 목표로 합니다.

배경

LLM 추론 아키텍처 (Prefill/Decode), NVIDIA Blackwell (B200) 하드웨어 특성, MLA (Multi-head Latent Attention) 개념

대상 독자

LLM 추론 성능 최적화 및 에이전트 서비스를 운영하는 인프라 엔지니어

의미 / 영향

TokenSpeed의 등장은 NVIDIA Blackwell과 같은 최신 하드웨어에서 소프트웨어 최적화가 여전히 큰 성능 차이를 만들 수 있음을 보여줍니다. 특히 MLA 커널의 성능 향상은 향후 vLLM 등 주요 엔진의 표준 성능을 한 단계 끌어올리는 계기가 될 것입니다.

섹션별 상세

에이전틱 워크로드의 특성인 긴 컨텍스트와 반복적인 토큰 생성을 처리하기 위해 설계 단계부터 최적화되었습니다. 기존 벤치마크가 포착하지 못하는 50K 이상의 긴 컨텍스트와 수십 번의 대화 턴이 발생하는 실제 코딩 에이전트 트래픽을 기준으로 성능을 튜닝했습니다.

모델링 레이어에 로컬 SPMD 설계를 도입하여 성능과 개발 편의성의 균형을 맞췄습니다. 개발자가 모듈 경계에 I/O 배치 주석을 추가하면 정적 컴파일러가 통신 로직을 자동으로 생성하여 수동 구현의 번거로움을 제거합니다.

C++ 기반의 유한 상태 머신(FSM) 스케줄러를 통해 제어 평면과 실행 평면을 분리했습니다. 이를 통해 KV 캐시 리소스 관리와 상태 전이를 컴파일 타임에 검증함으로써 런타임 오버헤드를 줄이고 시스템의 안정성을 확보했습니다.

NVIDIA Blackwell 아키텍처를 위해 최적화된 MLA(Multi-head Latent Attention) 커널을 구현했습니다. 디코드 커널에서 쿼리 시퀀스 축을 헤드 축으로 병합하여 Tensor Core 활용도를 높였으며, 이는 기존 SOTA 대비 지연 시간을 최대 50% 단축하는 결과로 이어졌습니다.

Kimi K2.5 모델을 사용한 TokenSpeed와 TensorRT-LLM의 성능 파레토 곡선 비교 차트 — Chart사용자당 토큰 생성 속도(TPS)와 GPU당 처리량(TPM)의 관계를 보여줍니다. TokenSpeed(실선)가 모든 설정에서 TensorRT-LLM(점선)보다 우위에 있으며, 특히 에이전트 워크로드 기준인 70 TPS 이상에서 더 높은 효율을 증명합니다.

TokenSpeed MLA와 TensorRT-LLM MLA의 프리필 및 디코드 지연 시간 비교 바 차트 — Chart상단 차트는 5가지 유즈케이스에서 TokenSpeed의 프리필 커널이 더 낮은 지연 시간을 가짐을 보여주며, 하단 차트는 배치 사이즈가 커질수록 TokenSpeed의 디코드 지연 시간이 TensorRT-LLM 대비 약 50% 수준으로 낮아짐을 시각화합니다.

실무 Takeaway

코딩 에이전트 서비스 운영 시 TokenSpeed를 도입하면 NVIDIA B200 환경에서 TensorRT-LLM 대비 약 11%의 추가 처리량을 확보할 수 있습니다.
MLA 아키텍처를 사용하는 모델의 경우 TokenSpeed의 최적화된 커널을 통해 디코드 지연 시간을 절반으로 줄여 사용자 경험을 개선할 수 있습니다.
C++ 스케줄러와 Python 실행 평면의 분리 구조를 활용하여 고성능 유지와 빠른 기능 반복 개발이라는 두 가지 목적을 동시에 달성 가능합니다.

언급된 리소스

문서TokenSpeed Documentation

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

배경

LLM 추론 아키텍처 (Prefill/Decode), NVIDIA Blackwell (B200) 하드웨어 특성, MLA (Multi-head Latent Attention) 개념

대상 독자

LLM 추론 성능 최적화 및 에이전트 서비스를 운영하는 인프라 엔지니어

의미 / 영향

섹션별 상세

실무 Takeaway

코딩 에이전트 서비스 운영 시 TokenSpeed를 도입하면 NVIDIA B200 환경에서 TensorRT-LLM 대비 약 11%의 추가 처리량을 확보할 수 있습니다.
MLA 아키텍처를 사용하는 모델의 경우 TokenSpeed의 최적화된 커널을 통해 디코드 지연 시간을 절반으로 줄여 사용자 경험을 개선할 수 있습니다.
C++ 스케줄러와 Python 실행 평면의 분리 구조를 활용하여 고성능 유지와 빠른 기능 반복 개발이라는 두 가지 목적을 동시에 달성 가능합니다.

언급된 리소스

문서TokenSpeed Documentation

TokenSpeed: 에이전트 워크로드를 위한 광속 LLM 추론 엔진

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

TokenSpeed: 에이전트 워크로드를 위한 광속 LLM 추론 엔진

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드