C# 추론 엔진 TensorSharp 업데이트: MLX 지원 및 vLLM 스타일 최적화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

C# 기반 추론 엔진 TensorSharp가 MLX 백엔드 지원, Paged Attention, Continuous Batching을 도입하여 로컬 LLM 추론 성능을 최적화했습니다.

C# 기반 추론 엔진인 TensorSharp의 개발자가 MLX 백엔드 지원 및 vLLM 스타일의 최적화 기능을 추가한 업데이트 내용을 커뮤니티에 공유했습니다.

TensorSharp가 기존 Pure C#, CUDA, GGML(CPU, CUDA, Metal) 백엔드에 이어 MLX 백엔드를 새롭게 지원하여 애플 실리콘 환경에서의 호환성을 확장했습니다.

vLLM 스타일의 Paged Attention과 Continuous Batching을 도입하여 로컬 머신에서도 여러 추론 요청을 병렬로 처리할 수 있는 환경을 구축했습니다.

Prefill 및 Decode 단계에서의 최적화를 통해 로컬 환경에서의 LLM 추론 성능을 전반적으로 개선했습니다.

Paged Attention: — KV 캐시를 페이지 단위로 나누어 관리하여 메모리 파편화를 방지하고 효율적인 메모리 사용을 가능하게 하는 기법입니다. 추론 시 메모리 효율을 극대화하여 더 긴 문맥 처리를 지원합니다.
Continuous Batching: — 추론 요청을 실시간으로 배치에 추가하거나 완료된 요청을 즉시 제거하여 GPU 유휴 시간을 최소화하는 기법입니다. 전체적인 추론 처리량(throughput)을 크게 향상시킵니다.
GGUF: — LLM 모델을 로컬에서 효율적으로 실행하기 위해 설계된 바이너리 파일 포맷입니다. 모델 가중치와 메타데이터를 단일 파일로 저장하여 로딩 속도와 호환성을 높입니다.