직접 메모리 접근
CPU의 개입 없이 주변 장치(GPU 등)가 시스템 메모리에 직접 데이터를 읽거나 쓸 수 있게 하는 기능이다. CPU 부하를 줄이면서 대량의 데이터를 빠르게 전송할 수 있다.
vLLM CPU 오프로딩으로 LLM 추론 처리량 최대 9배 향상하기