본문으로 건너뛰기

marlin

마린

고급

양자화된 LLM 추론을 최적화하기 위해 설계된 고성능 커널 백엔드로, 특히 4비트 양자화 모델의 행렬 연산 속도를 극대화하는 데 사용된다.