플래시 MoE
Mixture of Experts 아키텍처의 추론 속도를 높이기 위해 설계된 최적화 기술이다. 메모리 접근 패턴을 개선하고 연산 병렬성을 높여 하드웨어 성능을 최대한 끌어낸다.