핵심 요약
MoE 아키텍처는 연산량 대비 성능이 뛰어나지만 거대한 메모리 점유율이 배포의 걸림돌이 된다. 이 논문은 단순히 전문가를 제거(Pruning)하는 대신 유사한 전문가를 병합(Merging)하는 REAM 방식을 통해, 메모리 사용량을 획기적으로 줄이면서도 모델의 지식을 보존하는 최적의 경로를 제시한다.
왜 중요한가
MoE 아키텍처는 연산량 대비 성능이 뛰어나지만 거대한 메모리 점유율이 배포의 걸림돌이 된다. 이 논문은 단순히 전문가를 제거(Pruning)하는 대신 유사한 전문가를 병합(Merging)하는 REAM 방식을 통해, 메모리 사용량을 획기적으로 줄이면서도 모델의 지식을 보존하는 최적의 경로를 제시한다.
핵심 기여
REAM(Router-weighted Expert Activation Merging) 프레임워크 제안
전문가를 단순히 삭제하는 대신 라우터 가중치를 고려하여 유사한 전문가들을 그룹화하고 병합하는 통합 압축 프레임워크를 구축했다.
라우팅 및 표현 수준의 중복성을 포착하는 새로운 유사도 지표 도입
게이트 로짓(Gate Logit)의 유사도와 Softmax 스케일링이 적용된 전문가 출력 유사도를 결합하여 전문가 간의 전문화 영역을 정확히 파악한다.
순차적 병합(Sequential Merging) 절차를 통한 오차 누적 방지
각 층을 병합한 후 다음 층의 통계치를 다시 계산하여 업데이트함으로써, 압축 과정에서 발생하는 데이터 분포의 변화(Stale Statistics) 문제를 해결했다.
데이터 혼합 비율에 따른 성능 트레이드오프 분석
일반 텍스트, 수학, 코드 데이터의 캘리브레이션 비율에 따라 객관식 문제 풀이와 생성 성능 사이의 파레토 최전선이 달라짐을 입증했다.
핵심 아이디어 이해하기
MoE 레이어는 입력 토큰마다 가장 적합한 전문가를 선택하는 Softmax 기반의 라우터를 사용한다. 기존의 Pruning 방식은 중요도가 낮은 전문가를 완전히 삭제하는데, 이는 해당 전문가가 가진 고유한 지식을 영구적으로 손실시킨다는 한계가 있다. 반면 기존 Merging 방식은 유사한 전문가를 합치지만, 라우터가 각 전문가를 얼마나 신뢰하는지에 대한 정보를 무시하고 가중치를 평균 내는 과정에서 오차가 발생한다.
REAM은 전문가의 출력값에 라우터의 확률값(Softmax 결과)을 곱한 'Gated Output'을 기준으로 유사도를 측정한다. 이는 라우터가 특정 전문가를 강하게 선호할 때의 특성을 병합 과정에 반영하여 전문가의 전문성을 보존한다. 또한, 모든 전문가를 골고루 합치는 대신 중요도가 높은 전문가를 '보호된 중심점(Protected Centroids)'으로 설정하고 나머지 전문가들을 여기에 흡수시키는 Pseudo-pruning 전략을 사용한다.
결과적으로 REAM은 전문가 수를 25% 줄인 상태에서도 원본 모델과 거의 대등한 성능을 보여준다. 특히 층별로 병합을 진행할 때마다 변화된 출력값을 다음 층의 입력으로 다시 사용하는 순차적 방식을 채택하여, 압축된 모델이 실제 추론 시 겪게 될 데이터 흐름을 정확히 반영하도록 설계했다.
방법론
REAM의 핵심은 네 가지 단계로 구성된다. 첫째, 전문가 유사도 를 계산한다. 이는 게이트 로짓 유사도 와 게이트 가중치가 적용된 전문가 출력 유사도 의 합으로 정의된다. [두 전문가의 출력값과 라우터 확률을 입력으로] → [코사인 유사도 연산을 수행해] → [0~1 사이의 유사도 점수를 얻고] → [이 값이 높을수록 두 전문가가 유사한 역할을 수행함을 의미한다].
둘째, Pseudo-pruning 전략을 적용한다. REAP 점수가 높은 개의 전문가를 중심점으로 선정하고, 나머지 전문가들을 가장 유사한 중심점에 할당한다. 이때 할당되지 않은 전문가들은 단독 그룹(Singleton)으로 남겨두어 불필요한 병합으로 인한 성능 저하를 방지한다. 셋째, 가중치 정렬 시 활성화 값 기반 비용()과 가중치 기반 비용()을 결합한 혼합 비용 행렬을 사용한다. [뉴런 간의 활성화 거리와 가중치 거리를 입력으로] → [헝가리안 알고리즘(Hungarian Algorithm) 연산을 수행해] → [최적의 뉴런 순열(Permutation)을 얻고] → [병합 전 전문가들의 뉴런 위치를 일치시켜 정보 손실을 최소화한다].
마지막으로 순차적 병합(Sequential Merging)을 수행한다. 한 층의 전문가들을 병합한 직후, 해당 층에 캘리브레이션 데이터를 다시 통과시켜 업데이트된 활성화 통계치를 추출한다. [병합된 층의 출력을 입력으로] → [순방향 연산을 수행해] → [새로운 활성화 텐서를 얻고] → [다음 층 병합 시 최신화된 데이터를 사용하여 오차 누적을 막는다].
주요 결과
Qwen3-30B 및 GLM-4.5-Air 모델을 대상으로 실험한 결과, 25% 전문가 감축 상황에서 REAM은 기존 SOTA 기법인 REAP보다 우수한 성능을 보였다. 특히 Qwen3-30B-Instruct 모델에서 96개 전문가로 압축했을 때, 적절한 데이터 혼합 비율(C4:Math:Code = 0:0.5:0.5) 조건에서 생성(GEN) 벤치마크 평균 69.8점을 기록하여 원본 모델(70.9점)에 근접한 성능을 달성했다.
데이터 혼합 비율에 따른 분석에서는 C4(일반 텍스트) 비율이 높을수록 객관식(MC) 성능이 향상되고, Code 비율이 높을수록 생성(GEN) 성능이 향상되는 뚜렷한 트레이드오프가 관찰되었다. REAM은 다양한 데이터 혼합 조건에서 경쟁 모델들보다 더 넓은 파레토 최전선(Pareto Frontier)을 형성하며 압축 효율의 우수성을 입증했다.
Ablation Study를 통해 각 구성 요소의 기여도를 분석한 결과, 라우터의 Softmax 스케일링을 제거했을 때 성능 하락(GEN = -11.5)이 가장 컸으며, 순차적 병합을 적용하지 않았을 때도 유의미한 성능 저하가 발생함을 확인했다. 이는 라우터 정보를 반영한 병합과 층간 오차 보정이 REAM의 핵심 성공 요인임을 시사한다.
기술 상세
REAM은 전문가 병합 시 발생하는 '독립적인 게이트 로짓' 문제를 해결하기 위해 REAP의 방식을 따라 중심점이 아닌 전문가의 게이트 가중치 행을 삭제한다. 이는 병합된 전문가들이 원본 라우터 구조 내에서 불필요한 간섭을 일으키지 않도록 유도한다. 아키텍처 측면에서 REAM은 전문가 간의 representation-level 중복뿐만 아니라 routing-level의 중복을 동시에 고려하는 다각적 접근을 취한다.
구현 세부사항으로, Qwen3-30B 모델 압축 시 약 1.5시간(VRAM 30GB) 정도의 연산 시간이 소요되어 비순차적 방식(1시간) 대비 오버헤드가 크지 않음을 확인했다. 또한 캘리브레이션 데이터의 양이 적은 벤치마크(예: AIME25)에서는 결과의 변동성이 크므로, 더 방대한 데이터셋을 통한 검증이 필요함을 명시하고 있다. 기술적으로는 가중치 정렬 시 데이터 기반 신호와 데이터 독립적 신호를 결합하여 뉴런 매칭의 강건성을 높인 것이 특징이다.
한계점
샘플 크기가 작은 벤치마크(예: 30개 문제인 AIME25)에서는 결과의 분산이 커서 모델 간의 정확한 성능 차이를 측정하기 어렵다. 또한 특정 캘리브레이션 데이터 혼합 비율에 따라 특정 작업의 성능이 급격히 하락하는 민감도가 존재한다.
실무 활용
MoE 기반 LLM을 메모리 제약이 있는 환경(단일 GPU 등)에 배포해야 하는 엔지니어에게 매우 유용한 기법이다. 추가적인 파인튜닝 없이도 높은 압축률과 성능 유지를 동시에 달성할 수 있다.
- 거대 MoE 모델(예: Qwen3-80B)을 한 단계 낮은 메모리 사양의 GPU 서버에 배포
- 특정 도메인(수학, 코드 등)에 특화된 데이터로 캘리브레이션하여 맞춤형 경량화 모델 생성
- 추론 비용 절감을 위해 성능 손실을 최소화하면서 전문가 수를 줄이는 최적화 파이프라인 구축
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.