고급 MXFP4 양자화: 미세 조정된 회전과 SmoothQuant 결합을 통한 무손실에 가까운 압축

핵심 요약

대형 언어 모델의 추론 비용 절감을 위해 MXFP4와 같은 저정밀도 양자화가 주목받고 있으나, 중소형 모델에서는 정확도 저하가 발생하는 한계가 있다. AMD 연구진은 온라인 입력 활성화 회전(Online Rotation)과 SmoothQuant 채널 재조정 스케일을 결합하여 이 문제를 해결했다. 이 기법은 데이터 내 이상치(Outlier)를 여러 채널로 분산시켜 양자화 오차를 줄이며, Qwen3 8B에서 32B 모델에 걸쳐 원본 BF16 대비 98% 이상의 정확도를 유지하는 성과를 거두었다. 블록 대각 구조를 활용해 연산 오버헤드를 최소화했으며, AMD Quark 라이브러리를 통해 실무에 적용 가능하다.

배경

양자화(Quantization) 기초 지식, Transformer 아키텍처 이해, 선형 대수학(직교 변환 및 행렬 연산)

대상 독자

LLM 추론 최적화 엔지니어 및 AMD Instinct 가속기 사용자

의미 / 영향

저정밀도 양자화의 한계를 극복함으로써 고성능 하드웨어의 이점을 극대화하고, 중소형 모델의 서빙 비용을 획기적으로 낮추면서도 모델 품질을 유지할 수 있게 한다.

섹션별 상세

MXFP4 양자화는 4.25비트 정밀도를 사용하여 높은 대역폭 효율을 제공하지만, 32개 요소로 구성된 OCP MX 그룹 내에 큰 이상치가 존재할 경우 나머지 값들의 정밀도가 급격히 떨어지는 문제가 발생한다.

온라인 회전(Online Rotation)은 추론 시 활성화 값에 직교 변환(Orthogonal Transform)을 적용하여 이상치를 여러 채널로 재분배함으로써 OCP MX 그룹 내의 값 범위를 좁히고 양자화 오차를 줄이는 핵심 메커니즘이다.

단순 회전뿐만 아니라 SmoothQuant의 대각 변환(Diagonal Transform)을 결합한 통합 변환을 학습하여 정확도 복구 능력을 극대화하며, 스케일링 값은 오프라인에서 가중치에 융합되어 추가적인 추론 오버헤드를 발생시키지 않는다.

Qwen3 8B, 14B, 32B 모델을 대상으로 테스트한 결과, 제안된 기법은 기존 RTN(Round-to-Nearest)이나 GPTQ보다 우수한 성능을 보였으며 n-shot 작업에서 정확도 하락의 45-55%를 복구하는 데 성공했다.

vLLM 서빙 라이브러리에 통합하여 벤치마크한 결과, 블록 대각 회전 구조 덕분에 연산 오버헤드는 관리 가능한 수준이며 향후 최적화된 커널을 통해 지연 시간을 더욱 단축할 수 있는 가능성을 확인했다.

이미지 분석

Infographic
이상치가 포함된 데이터를 회전 변환을 통해 고르게 분포시킨 후 양자화하는 과정을 시각적으로 보여준다. 이를 통해 MXFP4 포맷에서도 높은 정밀도를 유지할 수 있는 원리를 설명한다.
MXFP4 양자화와 온라인 회전 및 SmoothQuant 결합을 통한 무손실 압축 개념도

Diagram
입력 활성화 값에 블록 단위로 회전 행렬 R을 곱하는 과정을 보여준다. 전체 행렬 연산 대신 블록 대각 구조를 사용하여 연산 효율성을 높이는 방식을 구체화한다.
온라인 입력 활성화 회전 연산의 블록 대각 구조 시각화

Chart
원본 모델 대비 RTN, GPTQ, 그리고 제안된 회전+SmoothQuant 기법의 성능을 비교한다. 제안된 기법이 모든 벤치마크 지표에서 원본에 가장 근접한 성능을 보임을 입증한다.
Qwen3-32B 모델의 MXFP4 양자화 성능 벤치마크 결과

실무 Takeaway

MXFP4 양자화 시 정확도 유지가 어려운 8B-32B 규모 모델에 온라인 회전과 SmoothQuant 결합 튜닝을 적용하여 BF16 대비 98% 이상의 성능을 확보할 수 있다.
블록 대각(Block-diagonal) 구조의 회전 행렬을 사용하면 전체 행렬 회전 대비 연산량을 획기적으로 줄이면서도 충분한 이상치 분산 효과를 얻을 수 있다.
AMD Quark 0.11 라이브러리를 활용하여 실제 모델에 이 기법을 적용하고 미세 조정을 수행할 수 있는 환경이 마련되어 실무 적용성이 높다.

언급된 리소스

GitHubAMD Quark GitHub Repository

문서High-Accuracy MXFP4, MXFP6, and Mixed-Precision Models on AMD GPU accelerators

핵심 요약

배경

양자화(Quantization) 기초 지식, Transformer 아키텍처 이해, 선형 대수학(직교 변환 및 행렬 연산)

대상 독자

LLM 추론 최적화 엔지니어 및 AMD Instinct 가속기 사용자

의미 / 영향

섹션별 상세

이미지 분석

실무 Takeaway

MXFP4 양자화 시 정확도 유지가 어려운 8B-32B 규모 모델에 온라인 회전과 SmoothQuant 결합 튜닝을 적용하여 BF16 대비 98% 이상의 성능을 확보할 수 있다.
블록 대각(Block-diagonal) 구조의 회전 행렬을 사용하면 전체 행렬 회전 대비 연산량을 획기적으로 줄이면서도 충분한 이상치 분산 효과를 얻을 수 있다.
AMD Quark 0.11 라이브러리를 활용하여 실제 모델에 이 기법을 적용하고 미세 조정을 수행할 수 있는 환경이 마련되어 실무 적용성이 높다.

언급된 리소스

GitHubAMD Quark GitHub Repository

문서High-Accuracy MXFP4, MXFP6, and Mixed-Precision Models on AMD GPU accelerators

고급 MXFP4 양자화: 미세 조정된 회전과 SmoothQuant 결합을 통한 무손실에 가까운 압축

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

이미지 분석

실무 Takeaway

언급된 리소스

고급 MXFP4 양자화: 미세 조정된 회전과 SmoothQuant 결합을 통한 무손실에 가까운 압축

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

이미지 분석

실무 Takeaway

언급된 리소스

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글