블록 대각 행렬
대각선 방향으로 작은 행렬 블록들이 배치되고 나머지는 0인 행렬이다. 전체 행렬 연산보다 계산량이 적어 온라인 연산 오버헤드를 줄이는 데 사용된다.
AMD Instinct MI350X에서 MXFP4 양자화로 성능 저하 없이 모델 크기 절반으로 줄이기