AWQ-마린 커널
AWQ 양자화 모델을 Marlin이라는 고성능 추론 커널을 통해 실행하는 방식이다. 특히 최신 NVIDIA GPU에서 FP16/BF16 연산과 4비트 가중치 행렬 곱셈을 효율적으로 처리하여 높은 처리량을 제공한다.