rvLLM: Rust로 구현한 고성능 LLM 추론 엔진

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

rvLLM은 가장 인기 있는 오픈소스 LLM 서빙 엔진인 vLLM을 Rust 언어로 처음부터 다시 구현한 프로젝트이다. Python의 Global Interpreter Lock(GIL)과 가비지 컬렉션으로 인한 지연 시간을 제거하여, A100 GPU 환경에서 vLLM 0.11.0 대비 최대 27% 향상된 처리량을 보여준다. 23개의 Rust 크레이트와 15개의 전용 CUDA 커널로 구성되어 있으며, 바이너리 크기를 31배 줄이고 시작 시간을 20배 단축하는 등 압도적인 자원 효율성을 제공한다. OpenAI 호환 API를 지원하므로 기존 vLLM 사용자는 코드 수정 없이 즉시 교체하여 사용할 수 있다.

배경

Rust 프로그래밍 언어 기초, CUDA 및 GPU 가속 원리에 대한 이해, LLM 추론 및 서빙 엔진(vLLM 등) 사용 경험

대상 독자

프로덕션 환경에서 LLM 추론 비용과 지연 시간을 최적화하려는 엔지니어 및 MLOps 전문가

의미 / 영향

이 프로젝트는 LLM 추론 엔진의 주류가 Python에서 Rust로 이동할 수 있음을 시사합니다. 특히 자원 효율성과 결정론적 성능이 중요한 엔터프라이즈 환경에서 vLLM의 강력한 대안이 될 것이며, 인프라 비용 절감에 직접적인 기여를 할 것으로 보입니다.

섹션별 상세

Python 기반 vLLM의 성능 병목인 GIL과 가비지 컬렉션 문제를 Rust의 소유권 모델로 해결했다. Python은 수천 개의 요청 처리 시 스케줄링 루프가 단일 스레드에 갇히지만, Rust는 모든 코어에서 병렬 처리가 가능하다. 이를 통해 예측 불가능한 GC 중단 없이 결정론적인 메모리 해제를 보장하며 추론 지연 시간의 변동성을 제거했다.

자원 효율성 측면에서 500MB에 달하던 vLLM 바이너리를 단 16MB의 정적 바이너리로 압축했다. PyTorch나 Transformers 같은 무거운 의존성 없이 cuBLAS와 CUDA 커널을 직접 호출하여 런타임 오버헤드를 최소화했다. 결과적으로 CPU 메모리 사용량은 약 1GB에서 348MB로, 시작 시간은 120초에서 6초로 대폭 단축되어 클라우드 네이티브 환경에 최적화됐다.

A100 80GB GPU에서 Qwen2.5-1.5B 모델을 벤치마크한 결과, 동시 요청 수(N)가 늘어날수록 성능 우위가 뚜렷해졌다. N=32 환경에서 rvLLM은 6,385 tok/s를 기록하며 vLLM의 5,405 tok/s보다 약 18%에서 최대 27%까지 빠른 속도를 보였다. 특히 CPU에서 수행되는 샘플링 및 로짓 처리 작업은 Rust 최적화를 통해 Python 대비 최대 24배까지 빨라져 전체 처리량을 끌어올렸다.

15개의 수동 작성된 CUDA 커널을 통해 PagedAttention V2, FlashAttention-2 등 핵심 알고리즘을 구현했다. cudarc를 사용하여 런타임에 PTX 커널을 로드하며, CUDA 그래프 캡처 및 재생 기능을 지원하여 커널 실행 간의 오버헤드를 줄였다. FP16 전체 포워드 패스를 지원하여 데이터 타입 변환 없이 순수하게 반정밀도 연산을 수행함으로써 GPU 연산 효율을 극대화했다.

OpenAI 호환 API를 완벽히 구현하여 기존 클라이언트 라이브러리와의 호환성을 유지했다. OpenAI Python 클라이언트, LiteLLM, LangChain 등에서 base_url만 변경하면 즉시 rvLLM 서버를 사용할 수 있다. 스트리밍, 채팅 완성, 모델 목록 조회 등 주요 엔드포인트가 모두 작동하며 Llama, Mistral, Qwen2 등 10가지 이상의 주요 모델 아키텍처를 지원한다.

bash

./target/release/rvLLM serve \
  --model Qwen/Qwen2.5-1.5B \
  --port 8000 \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.90

rvLLM 서버를 실행하여 모델을 서빙하는 명령어 예시

python

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="unused")
response = client.chat.completions.create(
    model="Qwen/Qwen2.5-1.5B",
    messages=[{"role": "user", "content": "Write a haiku about Rust"}],
    max_tokens=50,
)
print(response.choices[0].message.content)

OpenAI Python 클라이언트를 사용하여 rvLLM 서버에 요청을 보내는 예시

코드 예제

bash

cargo install rvllm
# 또는 PyPI를 통해 설치
pip install rvllm

rvLLM을 설치하는 방법

실무 Takeaway

대규모 동시 요청을 처리하는 LLM 서비스에서 Python의 GIL로 인한 스케줄링 병목을 Rust 도입으로 해결하여 처리량을 20% 이상 개선할 수 있다.
16MB의 초경량 바이너리와 6초대의 빠른 시작 시간을 활용해 서버리스 인프라나 오토스케일링 그룹의 운영 비용을 획기적으로 절감한다.
OpenAI API 호환성을 통해 기존 vLLM 기반 파이프라인을 수정 없이 즉시 고성능 Rust 엔진으로 교체하여 배포 효율을 개선할 수 있다.

언급된 리소스

GitHubrvLLM GitHub Repository

논문rvLLM Technical Report (LaTeX)