본문으로 건너뛰기
Triton 커널을 활용한 MoE 추론 최적화: Mixtral-8x7B에서 최대 6.5배 성능 향상 | AI Trends