MASQuant: 멀티모달 대형 언어 모델을 위한 모달리티 인식 스무딩 양자화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 양자화 방식은 이미지와 텍스트처럼 성격이 다른 데이터를 동시에 처리할 때 정보가 뭉개지는 한계가 있었다. MASQuant는 각 데이터 특성에 맞춘 개별 보정 기술을 통해 성능 저하 없이 모델 크기를 줄여 온디바이스 AI 구현을 앞당긴다.

왜 중요한가

핵심 기여

스무딩 정렬 불일치(Smoothing Misalignment) 현상 규명

멀티모달 입력 시 활성화 값이 큰 특정 모달리티가 스무딩 인자를 독점하여 다른 모달리티의 양자화 정밀도를 파괴하는 문제를 수학적으로 증명했다.

모달리티 인식 스무딩(MAS) 기법 도입

텍스트, 이미지, 오디오 등 각 모달리티별로 독립적인 스무딩 인자를 학습하고 최적화하여 개별 데이터의 특성을 보존한다.

SVD 기반 교차 모달리티 보정(CMC) 설계

모달리티 간의 가중치 차이를 저순위 행렬로 근사하여, 단일 양자화 가중치 구조를 유지하면서도 효율적인 보정 연산을 수행한다.

핵심 아이디어 이해하기

양자화는 모델의 데이터를 8비트 정수 등으로 압축해 효율을 높이는 과정이다. 하지만 멀티모달 모델에서는 이미지 토큰의 활성화 값이 텍스트보다 100배 이상 커서 문제가 발생한다. 기존의 채널별 스무딩 방식은 가장 큰 값에 맞춰 전체 스케일을 조정하므로, 상대적으로 값이 작은 텍스트나 오디오 정보가 양자화 과정에서 소실되는 '스무딩 정렬 불일치'가 일어난다.

MASQuant는 각 모달리티마다 최적화된 개별 스무딩 인자를 적용해 이 문제를 해결한다. 각 데이터 유형에 맞는 맞춤형 스케일을 제공하여 정보 손실을 원천 차단하는 원리다. 다만 모달리티별로 가중치를 따로 저장하면 메모리 절약 효과가 사라지므로, 텍스트를 기준으로 삼고 다른 모달리티와의 차이점만 별도로 관리하는 전략을 취한다.

이때 '교차 모달리티 보정(CMC)'은 두 모달리티 간의 차이가 수학적으로 저순위(Low-rank) 구조를 가진다는 점을 이용한다. 거대한 가중치 전체를 바꾸는 대신, 아주 작은 크기의 행렬 두 개를 곱해 오차를 보정한다. 결과적으로 메모리 사용량은 거의 늘리지 않으면서도 모든 입력 유형에서 높은 정확도를 유지하며 추론 속도를 2.5배까지 높인다.

방법론

MAS(Modality-Aware Smoothing)는 각 모달리티 m의 활성화 범위 R을 측정하여 초기 스무딩 인자 Sm을 설정한다. [각 채널의 최대 활성화 값과 가중치 최대값을 입력으로] → [제곱근 비율 연산을 수행해] → [대각 행렬 Sm을 얻고] → [이를 통해 활성화 값의 이상치를 가중치로 분산시켜 양자화 효율을 극대화한다]. 이후 MAE 손실 함수를 통해 각 모달리티 데이터에 최적화되도록 Sm을 미세 조정한다.

CMC(Cross-Modal Compensation)는 텍스트용 양자화 가중치 Q(StW)를 공용으로 사용하면서 발생하는 타 모달리티의 잔차를 보정한다. [모달리티 간 가중치 차이 ΔW에 SVD 화이트닝 변환 T를 적용해] → [상위 r개의 특이값만 남기는 저순위 근사를 수행하여] → [L1, L2 행렬을 생성하고] → [추론 시 기본 출력값에 이 보정치를 더해] → [단일 가중치 시스템에서도 멀티모달 정밀도를 복원한다].

주요 결과

Qwen2.5-VL 모델 실험에서 W4A8 설정 시 FP16 대비 성능 하락이 거의 없는 수준을 기록했다. 특히 MMMU 벤치마크에서 기존 방식(MBQ) 대비 약 2~5%p 높은 정확도를 보이며 시각 정보 보존 능력을 입증했다.

Qwen2.5-Omni 모델을 통한 3중 모달리티(텍스트, 이미지, 오디오) 테스트에서 오디오 인식 성능(WER)이 기존 SmoothQuant의 77.4에서 3.6으로 대폭 개선되었다. 이는 여러 모달리티가 섞여 있을 때 발생하는 간섭 현상을 MASQuant가 성공적으로 억제했음을 의미한다.

RTX 4090 GPU 환경에서 FP16 대비 2.5배의 추론 속도 향상을 달성했다. 커스텀 CUDA 커널을 통해 보정 연산의 오버헤드를 5~10% 수준으로 억제하면서도 메모리 사용량은 절반 이하로 줄였다.

기술 상세

MASQuant 아키텍처는 MLLM의 트랜스포머 블록 내에서 활성화 값의 채널별 분포가 모달리티에 따라 상이하다는 점에 주목한다. 특히 비전 토큰의 활성화 크기가 텍스트보다 20배 이상 클 수 있음을 확인하고, 이를 단일 스케일링 팩터로 처리할 때 발생하는 정밀도 붕괴를 'Smoothing Misalignment'로 정의했다.

핵심 알고리즘인 CMC는 SVD 기반 화이트닝을 통해 활성화 값의 공분산을 정규화한다. [활성화 값 X의 공분산 행렬을 SVD 분해하여] → [화이트닝 행렬 T를 산출하고] → [이를 가중치 오차 ΔW에 곱해] → [데이터의 상관관계를 제거함으로써] → [저순위 근사의 효율성을 극대화한다]. 이는 단순 SVD보다 훨씬 적은 파라미터로 높은 보정 효과를 낸다.

추론 시에는 텍스트 모달리티를 기본(Base)으로 설정하여 추가 연산 없이 수행하고, 이미지나 오디오 입력 시에만 경량화된 L1, L2 행렬을 이용한 보정 경로를 활성화한다. 이러한 조건부 실행 구조는 멀티모달 모델의 유연성과 효율성을 동시에 확보하는 핵심 설계다.

실무 활용

스마트폰이나 로봇 등 자원이 제한된 환경에서 멀티모달 AI를 구동하기 위한 핵심 기술이다. 모델 크기를 줄이면서도 시각 및 음성 인식 정확도를 유지해야 하는 실무 환경에 즉시 적용 가능하다.

모바일 기기용 실시간 멀티모달 비서 서비스
엣지 디바이스 기반 지능형 CCTV 영상 분석
저비용 서버 환경에서의 대규모 멀티모달 모델 서빙

코드 공개 여부: 공개

코드 저장소 보기

키워드

PTQ(사후 학습 양자화)MLLM(멀티모달 대형 언어 모델)Model Compression(모델 압축)SVD(특이값 분해)Low-rank Approximation(저순위 근사)