배치 추론
여러 개의 입력 데이터를 한꺼번에 묶어서 모델에 전달하고 처리하는 방식이다. 실시간 응답보다는 대량의 데이터를 효율적으로 처리해야 하는 분석 작업에 주로 사용된다.
Apple Intelligence를 Python으로 제어한다! 새로운 Foundation Models SDK
GPU 유휴 시간 0% 도전! Ray와 vLLM으로 배치 추론 비용 절감하기
vLLM보다 2배 빠르다? Ray Data LLM으로 대규모 배치 추론 정복하기