Dendrite: 트리 구조 추론을 위한 O(1) 포크 지연시간 기반 에이전트 네이티브 추론 엔진

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Dendrite는 여러 추론 경로를 동시에 탐색해야 하는 에이전트 워크로드에 최적화된 LLM 추론 엔진이다. 기존 엔진들이 단일 시퀀스 처리량에 집중하는 것과 달리 Dendrite는 트리 구조의 KV 캐시와 Copy-on-Write 메커니즘을 도입하여 추론 상태 복제 지연시간을 상수 시간(O(1))으로 줄였다. 4K 컨텍스트 기준 포크 지연시간이 vLLM의 50-100ms 대비 3μs 수준으로 단축되어 MCTS나 Tree-of-Thought와 같은 복잡한 알고리즘을 실시간으로 수행할 수 있다. TurboQuant를 통한 4비트 KV 캐시 압축을 지원하여 메모리 효율성을 극대화하고 대규모 컨텍스트 추론을 가능하게 한다.

배경

Rust 프로그래밍 언어, CUDA 및 GPU 추론 기초, LLM KV 캐시 및 PagedAttention 개념

대상 독자

에이전트 시스템 및 복잡한 추론 알고리즘을 개발하는 LLM 엔지니어

의미 / 영향

Dendrite는 에이전트의 추론 지연시간을 획기적으로 단축하여 실시간 상호작용이 가능한 복잡한 추론 시스템 구축을 가능하게 합니다. 특히 KV 캐시 공유와 압축 기술을 통해 제한된 GPU 자원에서도 대규모 컨텍스트와 다중 경로 탐색을 동시에 수행할 수 있는 환경을 제공합니다.

섹션별 상세

기존 추론 엔진은 새로운 추론 가지를 생성할 때 KV 캐시 전체를 복사해야 하므로 컨텍스트 길이에 비례하는 지연시간이 발생했다. Dendrite는 Copy-on-Write(CoW) 의미론을 적용하여 실제 데이터 대신 블록 테이블 포인터만 복사함으로써 포크 지연시간을 O(1)로 구현했다. 4K 컨텍스트 포크 시 vLLM은 50-100ms가 소요되지만 Dendrite는 약 3μs 내에 처리를 완료한다. 이를 통해 수백 개의 추론 경로를 탐색하는 에이전트 시스템의 실시간 응답성을 확보할 수 있다.

rust

use dendrite_core::cache::{PagedKvCache, DEFAULT_PAGE_SIZE};
// ...
let parent = cache.allocate_sequence();
// O(1) fork - shares pages via copy-on-write
let child1 = cache.fork_sequence(parent)?;
let child2 = cache.fork_sequence(parent)?;

Copy-on-Write를 사용하여 부모 시퀀스로부터 O(1) 시간 내에 새로운 추론 가지를 생성하는 예시

Dendrite 엔진이 트리 구조로 추론 경로를 확장하는 과정을 보여주는 데모 애니메이션 — Screenshot여러 추론 가지가 동시에 생성되고 탐색되는 과정을 시각화하여 엔진의 핵심 기능인 트리 구조 추론을 직관적으로 보여준다. 각 노드가 생성될 때 지연 없이 즉각적으로 분기되는 성능적 특성을 확인할 수 있다.

메모리 관리 측면에서 트리 구조의 KV 캐시와 참조 횟수 계산 방식을 도입하여 중복 데이터를 최소화했다. PagedAttention 기법을 활용해 16개 토큰 단위의 블록으로 캐시를 관리하며 여러 가지가 동일한 프리픽스를 공유할 때 메모리를 중복 할당하지 않는다. 6개의 가지를 가진 4K 프리픽스 시나리오에서 vLLM이 6GB를 사용하는 반면 Dendrite는 1.1GB만 점유하여 약 80% 이상의 메모리 절감 효과가 나타났다.

고성능 추론을 위해 FlashInfer 커널과 TurboQuant 압축 기술을 통합하여 처리 효율을 높였다. TurboQuant 4비트 압축을 통해 KV 캐시 메모리를 3.88배 줄이면서도 매 호출마다 역양자화를 수행하는 기존 방식과 달리 양자화된 인덱스에서 직접 연산하여 속도 저하를 방지했다. NVIDIA GB10 환경에서 TinyLlama-1.1B 모델 기준 초당 40.8개 토큰의 생성 속도를 기록하며 대규모 컨텍스트에서도 안정적인 성능을 유지한다.

rust

let backend = Arc::new(FlashAttnBackend::new(0)?);
let mut transformer = Transformer::new(config, backend, device.clone())?;
transformer.load_weights(model_path)?;
let mut cache = transformer.create_cache();
let logits = transformer.forward_with_cache(&input, &mut cache).await?;

FlashAttention 백엔드를 사용하여 GPU에서 효율적으로 KV 캐시 기반 추론을 수행하는 예시

MCTS 및 빔 서치와 같은 트리 탐색 알고리즘을 엔진 내부에 기본적으로 포함하고 있다. UCT 스코어링과 llguidance를 통한 문법 제약 기능을 결합하여 구조화된 출력을 보장한다. 개발자는 Rust 기반의 API를 통해 복잡한 에이전트 추론 로직을 낮은 수준의 메모리 관리 걱정 없이 구현할 수 있다.

실무 Takeaway

Tree-of-Thought나 MCTS와 같이 다중 경로 탐색이 필수적인 에이전트 시스템 구축 시 Dendrite를 사용하면 포크 지연시간을 마이크로초 단위로 줄여 전체 추론 속도를 획기적으로 개선할 수 있다.
TurboQuant 4비트 KV 캐시 압축 기능을 활용하면 128GB GPU 한 장에서도 Qwen3-32B 모델의 100만 토큰 컨텍스트 추론이 가능해져 하드웨어 비용을 절감할 수 있다.
Rust 환경에서 LLM 애플리케이션을 개발할 때 dendrite-core 라이브러리를 통해 PagedAttention과 CoW 기반의 효율적인 메모리 관리를 직접 제어할 수 있다.

언급된 리소스

GitHubDendrite GitHub Repository