MatMul을 SRAM 룩업으로 대체: 3비트 엣지 추론 아키텍처

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

기존 LLM 추론은 메모리 대역폭과 FP16 연산 비용으로 인해 엣지 기기 배포에 한계가 있다. 이 아키텍처는 Hadamard Rotation과 벡터 양자화를 통해 가중치를 3.125비트로 압축하고, 행렬 곱셈을 룩업 테이블(LUT) 기반 연산과 비트 단위 잔차 연산으로 대체한다. 이를 통해 FP16 곱셈 연산량을 약 93% 절감하고 메모리 사용량을 5배 이상 줄인다. Gemma 2 9B 모델 기준 성능 저하는 평균 2.85% 수준으로 유지된다.

대상 독자

엣지 AI 하드웨어 설계자 및 LLM 추론 최적화 연구자

의미 / 영향

이 아키텍처는 LLM 추론의 하드웨어 요구사항을 근본적으로 재정의한다. 대규모 Tensor Core 중심의 데이터센터 GPU 대신, 효율적인 SRAM 관리와 단순 ALU 연산에 최적화된 하드웨어가 엣지 AI의 표준이 될 가능성을 시사한다.

섹션별 상세

엣지 기기에서 LLM 추론의 핵심 병목은 연산 능력 부족이 아닌 메모리 대역폭과 FP16 연산의 전력 소모이다. 기존 양자화 방식은 추론 시 가중치를 FP16으로 복원하는 과정에서 추가적인 지연과 전력 소모를 발생시킨다.

3.125비트 양자화 파이프라인은 Hadamard Rotation으로 가중치 이상치를 평탄화하고, 벡터 양자화(Product Quantization)로 가중치를 코드북 인덱스로 변환한다. 나머지 오차는 1비트 이진 잔차(Binary Residual)로 저장하여 정밀도를 보존한다.

python

def quantize(W, D=4, K=256, G=128): # 1. Apply Randomized Hadamard Transform to smooth outliers Q = randomized_hadamard(dim=W.shape[1]) W_rot = W @ Q # 2. Reshape weights into blocks (e.g., vectors of size 4) blocks = reshape_to_blocks(W_rot, block_dim=D) # 3. Run sensitivity-aware K-Means to build the codebook and assign pointers codebook, pointers = run_sensitivity_kmeans(blocks, k=K) # 4. Calculate the residual error from the K-Means approximation approx = reconstruct_from_codebook(codebook, pointers) residual = W_rot - approx # 5. Extract 1-bit signs from the residual signs = torch.sign(residual) # 6. Compute the optimal FP16 scaling factor (alpha) per group alpha = compute_optimal_scales(residual, signs, group_size=G) # 7. Pack the binary signs densely into uint8 packed_signs = pack_sign_bits(signs) return codebook, pointers, packed_signs, alpha

3.125비트 양자화 파이프라인의 핵심 로직을 구현한 파이썬 코드 예시

추론 시 행렬 곱셈 대신 사전 계산된 룩업 테이블(LUT)을 활용한다. 입력 블록과 코드북 간의 내적을 미리 계산해 SRAM에 저장하고, 추론 시에는 포인터 참조와 비트 연산만 수행하여 FP16 곱셈을 93% 제거한다.

근거

FP16 곱셈 연산량을 약 93% 절감한다. — The Math: How Many MatMuls Did We Just Delete? 섹션

Gemma 2 9B 모델에 적용한 결과, 메모리 점유율이 18.2GB에서 3.4GB로 5.12배 감소했다. 주요 벤치마크에서 평균 2.85%의 성능 하락만 발생하여 엣지 기기에서의 실용성을 입증했다.

근거

메모리 점유율이 18.2GB에서 3.4GB로 5.12배 감소했다. — Benchmark Results 섹션

용어 해설

Hadamard Rotation: — 가중치 행렬에 직교 행렬을 곱하여 가중치 분포를 평탄화하는 기법. 이상치(outlier) 에너지를 전체 가중치로 분산시켜 양자화 시 정보 손실을 최소화한다.
Product Quantization: — 가중치 행렬을 작은 블록(벡터)으로 나누고, 각 블록을 코드북의 대표값(센트로이드)으로 근사하는 압축 기법. 메모리 사용량을 획기적으로 줄이면서 모델의 지능을 보존한다.
SRAM: — CPU나 GPU 내부의 초고속 메모리. 본 아키텍처에서는 룩업 테이블(LUT) 결과를 저장하여 행렬 곱셈 없이 추론을 수행하는 핵심 저장소로 활용된다.