핵심 요약
LLM을 스마트폰 등 저사양 기기에서 실행하려면 모델 크기를 줄이는 양자화가 필수적이지만, 모든 층을 일률적으로 줄이면 성능이 급격히 저하된다. RAMP는 강화학습을 통해 각 층의 중요도에 따라 비트 수를 다르게 할당함으로써, 성능 손실을 최소화하면서도 모델 크기를 극도로 줄이는 데 성공했다. 특히 한 모델에서 학습한 전략을 다른 구조의 모델에도 즉시 적용할 수 있는 범용성을 갖춰 실무 배포 효율성을 획기적으로 높였다.
왜 중요한가
LLM을 스마트폰 등 저사양 기기에서 실행하려면 모델 크기를 줄이는 양자화가 필수적이지만, 모든 층을 일률적으로 줄이면 성능이 급격히 저하된다. RAMP는 강화학습을 통해 각 층의 중요도에 따라 비트 수를 다르게 할당함으로써, 성능 손실을 최소화하면서도 모델 크기를 극도로 줄이는 데 성공했다. 특히 한 모델에서 학습한 전략을 다른 구조의 모델에도 즉시 적용할 수 있는 범용성을 갖춰 실무 배포 효율성을 획기적으로 높였다.
핵심 기여
전이 가능한 강화학습 기반 양자화 정책
Llama-2-7B에서 학습한 비트 할당 정책이 Llama-2-13B나 Mistral-7B와 같은 다른 모델에서도 별도의 재학습 없이 우수한 성능을 발휘함을 입증했다.
3비트 이하 양자화 안정을 위한 Scale Folding 기법
활성화 값의 이상치(Outlier)를 가중치로 이동시키는 전처리 기법을 통해, 커스텀 커널 없이도 4비트 미만의 저비트 양자화에서 모델이 붕괴되지 않도록 안정화했다.
하드웨어 가속을 지원하는 HALO 배포 파이프라인
학습된 비트 할당을 표준 GGUF 형식으로 내보내어 llama.cpp를 통해 CPU, GPU, Apple Silicon 등 다양한 하드웨어에서 추가 개발 없이 즉시 실행 가능하게 했다.
11차원 레이어 임베딩 설계
활성화 통계, 가중치 특성, 구조적 설명자 등을 포함한 11차원 벡터로 각 층을 표현하여 모델 크기나 구조 변화에 유연하게 대응하는 상태 공간을 구축했다.
핵심 아이디어 이해하기
Transformer 아키텍처에서 각 층은 정보 처리의 중요도가 다르다. 예를 들어 출력에 직접 영향을 주는 마지막 층이나 특정 Attention 층은 매우 민감한 반면, 중간의 MLP 층은 상대적으로 둔감하다. 기존 방식은 모든 층에 동일한 비트(예: 4비트)를 적용하여 민감한 층에서는 정보가 깨지고 둔감한 층에서는 메모리가 낭비되는 비효율이 발생했다.
RAMP는 이를 해결하기 위해 각 층의 '신체 검사 결과'와 같은 11가지 지표(활성화 크기, 가중치 분포 등)를 보고 최적의 비트 수(3~6비트)를 결정하는 강화학습 에이전트를 도입했다. 에이전트는 전체 모델의 당혹도(Perplexity)를 낮게 유지하면서 정해진 메모리 예산을 지킬 때 보상을 받도록 설계되어, 스스로 어떤 층을 더 많이 깎고 어떤 층을 보호할지 학습한다.
가장 핵심적인 통찰은 양자화에 대한 민감도가 개별 가중치 값보다는 모델의 '구조적 역할'에 더 크게 의존한다는 점이다. RAMP는 층의 절대적인 수치가 아닌 상대적인 특성을 학습하기 때문에, 작은 모델에서 배운 "출력에 가까운 층은 비트를 높게 유지하라"는 전략을 큰 모델이나 다른 가중치를 가진 모델에도 그대로 적용하여 최적의 결과를 낼 수 있다.
방법론
RAMP는 Soft Actor-Critic(SAC) 알고리즘을 사용하여 양자화 비트 할당을 순차적 의사결정 문제로 푼다. 상태 공간은 각 층의 활성화 최대치, 가중치 평균/표준편차, 층의 상대적 깊이 등 11차원 벡터로 정의된다. 보상 함수는 [FP16 모델의 Perplexity와 양자화 모델의 Perplexity 차이를 입력으로] → [비대칭적 가중치를 적용하여 계산하고] → [여기에 메모리 예산 초과에 따른 급격한 페널티를 더해] → [에이전트가 품질과 효율성 사이의 최적 균형점을 찾도록 유도한다].
저비트 양자화의 고질적 문제인 활성화 이상치(Outlier) 해결을 위해 Scale Folding을 수행한다. [채널별 활성화 값의 크기를 입력으로] → [제곱근 연산 후 평균값으로 나누어 정규화된 스케일 인자를 계산하고] → [이 인자를 가중치 행렬에 곱한 뒤 역수를 이전 레이어 정규화 파라미터에 반영하여] → [수학적 결과값은 유지하면서 활성화 값의 범위를 좁힌다]. 이 과정을 통해 3비트 양자화에서도 정보 손실을 최소화하며 안정적인 추론이 가능해진다.
최종 배포를 위해 HALO 파이프라인은 [에이전트가 선택한 비트 수를 입력으로] → [GGUF 표준 양자화 타입(Q3_K, Q4_K 등)으로 매핑하고] → [가중치를 해당 형식으로 변환하여] → [하나의 GGUF 파일로 통합한다]. 이 파일은 llama.cpp를 통해 별도의 커스텀 커널 없이도 다양한 하드웨어 가속기를 활용해 즉시 실행될 수 있다.
주요 결과
Llama-2-7B 모델에서 RAMP는 3.68GB 크기로 5.54 PPL을 달성하여, 3.90GB 크기의 4비트 AWQ(5.60 PPL)보다 더 작으면서도 더 정교한 성능을 보였다. Llama-3-8B에서도 GPTQ 대비 24.6%의 용량 절감 효과를 거두며 파레토 최적을 갱신했다. 특히 Llama-2-7B에서 학습된 정책을 Llama-2-13B에 적용했을 때 4.95 PPL을 기록하며, 해당 모델에서 직접 학습한 경우(4.96 PPL)보다 오히려 더 나은 제로샷 전이 성능을 입증했다.
상식 추론 성능 평가에서는 FP16 대비 99.5%의 정확도를 유지하며 실질적인 지능 저하가 거의 없음을 확인했다. 배포 효율성 측면에서 HALO 파이프라인을 거친 모델은 RTX 3090에서 FP16 대비 3배 이상의 속도 향상을 기록했으며, Apple Silicon(M1/M2/M3) 환경에서도 수십 토큰/초의 실용적인 추론 속도를 확보했다.
실무 활용
고가의 서버용 GPU 없이 개인용 PC나 모바일 기기에서 LLM을 실행하려는 환경에 최적화되어 있다. GGUF 표준을 따르므로 기존의 llama.cpp 기반 도구들과 즉시 연동 가능하다.
- 스마트폰 내장형 개인 비서 서비스 (메모리 사용량 최소화)
- 8GB 이하 VRAM을 가진 보급형 GPU에서의 7B/13B 모델 구동
- 오프라인 환경에서 작동하는 보안 강화형 온디바이스 챗봇
- CPU 기반 엣지 서버에서의 저지연 언어 모델 추론
기술 상세
RAMP는 오프-폴리시 강화학습인 SAC를 사용하여 샘플 효율성을 극대화했다. SAC의 엔트로피 최대화 목적 함수는 [정책의 기대 보상과 엔트로피의 합을 입력으로] → [가치 네트워크(Critic)와 정책 네트워크(Actor)를 동시에 최적화하여] → [안정적인 비트 할당 전략을 도출한다]. 이는 리플레이 버퍼를 활용해 과거의 경험을 재사용함으로써 PPO 대비 약 8배 적은 GPU 시간으로도 수렴이 가능하다.
11차원 레이어 임베딩은 모델의 크기나 구조 변화에 무관한 추상적 상태를 제공한다. 활성화 값의 최대 크기를 레이어 너비의 제곱근으로 나누는 정규화 기법을 통해, 서로 다른 규모의 모델 간에도 활성화 분포의 상대적 특성을 일관되게 전달한다. 이러한 설계는 에이전트가 특정 수치에 과적합되지 않고 양자화 민감도의 일반적인 패턴을 학습하게 하여 강력한 제로샷 전이 능력을 부여한다.
메모리 예산 관리를 위한 Cliff Penalty는 세 단계 구역으로 나뉜다. [평균 비트가 4.0 이하일 때는 페널티 0] → [4.0에서 4.25 사이일 때는 선형 페널티] → [4.25를 초과하면 이차 함수 형태의 급격한 페널티]를 부여한다. 이 구조는 에이전트가 예산 범위 내에서 최대한의 품질을 확보하도록 강제하며, 학습 초기 단계의 불안정한 탐색을 억제하고 안정적인 수렴을 돕는다.
한계점
디코더 전용 Transformer 모델(Llama, Mistral)에서만 평가되었으며, 인코더-디코더나 MoE 구조에 대한 검증은 이루어지지 않았다. 현재는 정수 비트(3, 4, 5, 6)만 지원하며 분수 비트나 더 세밀한 단위의 양자화는 불가능하다. 또한 비트 할당이 모델 배포 시점에 고정되는 정적 방식이어서, 입력 데이터의 복잡도에 따라 실시간으로 정밀도를 조절하는 동적 양자화 기능은 포함되어 있지 않다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료