비동기 입출력
단일 스레드에서 여러 입출력 작업을 동시에 처리하여 대기 시간을 효율적으로 활용하는 방식이다. CPU가 입출력 완료를 기다리지 않고 다른 작업을 수행하게 함으로써 네트워크 요청이 많은 LLM 애플리케이션의 처리량을 극대화한다.