TL;DR
Sparse MoE 계층에서 토큰은 소수의 전문가를 통해 처리되며, pairwise 신호만으로는 세 전문가가 함께 merge될 때의 Irreducible Cycle을 포착하기 어렵다. 이 논문은 simplicial Laplacian의 harmonic 커널을 이용해 고차 mergeability 잔류를 식별하고, 학습 없이도 상위 계층 압축성능(frontier)을 개선하는 HodgeCover를 제시한다. Qwen 계열과 OLMoE 같은 공개 체크포인터에서 66% expert reduction 시에도 벤치마크를 능가하며, 66%에서 Qwen 3.5-35B-A3B의 DS-Avg가 STUN+Wanda 대비 +12.6pp 향상을 달성한다. 학습-free 파이프라인과 Stage-2 Wanda의 결합은 두 축의 압축을 직교적으로 활용한다.
왜 중요한가
Sparse MoE 계층에서 토큰은 소수의 전문가를 통해 처리되며, pairwise 신호만으로는 세 전문가가 함께 merge될 때의 Irreducible Cycle을 포착하기 어렵다. 이 논문은 simplicial Laplacian의 harmonic 커널을 이용해 고차 mergeability 잔류를 식별하고, 학습 없이도 상위 계층 압축성능(frontier)을 개선하는 HodgeCover를 제시한다. Qwen 계열과 OLMoE 같은 공개 체크포인터에서 66% expert reduction 시에도 벤치마크를 능가하며, 66%에서 Qwen 3.5-35B-A3B의 DS-Avg가 STUN+Wanda 대비 +12.6pp 향상을 달성한다. 학습-free 파이프라인과 Stage-2 Wanda의 결합은 두 축의 압축을 직교적으로 활용한다.
핵심 기여
Simplicial mergeability 잔류의 해석
MoE Layer의 mergeability complex(K=(V,E,T))를 정의하고, edge-barrier bij와 triangle-barrier bijk를 이용해 1-Hodge Laplacian L1의 커널 ker(L1)에서 harmonic 에너지를 추출한다. bharm은 vertex-potentials(bgrad)와 triangle-boundaries(bcurl)로는 설명할 수 없는 잔류로 정의되며, β1(K)에 의해 차원의 정보를 갖는다.
HodgeCover: 학습-free의 선발 목표
Top-p% harmonic-critical edges와 top-qT% triangle을 선택해 S를 구성하는 그리드형 그리디 서브모듈러 커버리지를 정의한다. sal(i) 등의 REAP 기반 점수와 |CE(S)|/|E*|, |CT(S)|/|T*|의 정규화된 커버리지를 결합한 목적함수 Φ(S)를 최적화한다.
HodgeCover+Wanda: 하이브리드 압축
Stage-1 HodgeCover로 expert-count 축에서 Survivor를 고르고, Stage-2 Wanda를 통해 생존자 가중치를 비구조적으로 추가로 가지치기한다. Stage-2는 Calibrations D를 재사용해 추가 forward pass 없이 수행된다.
실험적 성과: 대규모 MoE에서 압축 프레임 개선
66% expert 감소에서도 Qwen 3.5-35B-A3B에서 DS-Avg가 STUN+Wanda 대비 +12.6pp 증가하며 GSM8K에서 큰 우위를 보인다. Qwen 3.5-122B-A10B에서도 유사한 패턴을 확인했다.
삼중항(triplet) 정보의 필요성 및 ablation 결과
Triangles 없이 harmonic-edge만 남겨두면 성능 저하가 심화되고, Triplet-Penalty Soft/Triplet-Hypergraph Hard ablation에서 Triangle 모듈의 Soft/L2 손실 없이 제거하면 성능 저하가 크게 나타난다.
핵심 아이디어 이해하기
단락1: mergeability의 페이즈는 단순 pairwise 신호만으로 포착하기 어렵다. 세 전문가가 서로 호환되는 경우라도 전체적으로는 합병 불가능한 사이클이 생길 수 있다. 이 잔류는 양의 방향으로 흐르는 gradient-SD나 curl 구성에 의해 설명되지 않는 harmonic 커널 bharm로 포착된다. 단락2: 2-복합체 K=(V,E,T)에서 edge는 전문가를, triangle은 triplet barrier를 나타내고 L1=∂1^T∂1+∂2∂2^T로 Hodge decomposition b=bgrad+bcurl+bharm을 얻는다. bharm은 ker(L1)에 속하며, 이를 통해 하이레벨 구조를 추정한다. 단락3: HodgeCover는 top-p% harmonic-edge와 top-qT% triangle를 커버하는 그리디 서브모듈러 선택으로 Survivor를 구성하고, Router Redirect에서 bharm 가중치를 이용해 non-survivor를 Survivor에 재배치한다. Stage-2 Wanda는 Survivor의 가중치를 추가로 prune하여 최종 압축을 수행한다. 이로써 pairwise 기반 방법으로는 포착하기 어려운 higher-order 병합 특성을 포착하고, 학습 없이도 강력한 압축 프레임워크를 제공한다.
관련 Figure

상호작용의 고차적 구조를 직관적으로 보여주는 도식으로, 본 논문에서 harmonic 커널과 Hodge decomposition의 필요성을 직관적으로 뒷받침한다.
Figure 1: 3 Experts가 pairwise로는 merge 가능해 보이나 Triplet에서 irreducible barrier가 형성될 수 있음을 시각적으로 보여준다.

각 구성요소의 레이어별 비율 차이를 보여주며 Hodge 분해의 유의미한 차이를 설명한다.
Figure 5: Gradient, Curl, Triplet-barrier 구성의 분해 비율
방법론
(1) 문제 정의: n개의 전문가와 라우터 g를 가진 MoE Layer에서 k개 생존자 S를 선택하고 π로 남지 않은 전문가를 S로 리다이렉트한다. 목표는 calibration 데이터 D에서 KL f(·|x) -> fS(·|x) 차이를 최소화하는 것이다. (2) merge-portrayal: V는 전문가, E는 모든 간선, T는 삼각형 후보군으로 구성된 2-복합체 K=(V,E,T). 각 간선 bij는 pairwise merge barrier, 삼각형 bijk는 triplet barrier를 나타낸다. (3) Hodge decomposition: b=bgrad+bcurl+bharm으로 분해한다. Pgrad, Pcurl, Pharm를 이용해 각 구성요소를 계산한다. (결과) bharm은 형식적으로 MK=im(∂1^T)⊕im(∂2)으로 표현 가능한 subspace를 벗어난 잔류로 정의되며, ρharm(ℓ)=∥Pharm b(ℓ)∥^2/∥b(ℓ)∥^2로 layer별 잔류를 측정한다. (4) 타깃 설정: top-harmonic edges E과 top-triangles T을 선정하고, S를 greedily 확장하면서 Φ(S)=sal(i)+λe|NE(i)ackslash CE(S)|/|E*|+λt|NT(i)ackslash CT(S)|/|T*|를 최대화한다. (5) Router Redirect: non-survivor i에 대해 π(i)=argminj∈S* bij·(1+α|bharm,{i,j}|/max(∥b∥,ε0))로 리다이렉션한다. (6) Stage-2 Wanda: Survivor의 가중치를 Wanda로 prune한다. (7) 복잡도: barrier 스윕은 각 layer에서 O(n^2) 쿼리의 pairwise barrier 평가와 |T| ≤ 500의 triplet 평가를 수행하며, Hodge projection은 L0/L2의 least-squares 솔브를 통해 수행한다.
관련 Figure

전체 파이프라인의 구성과 상호작용을 보여주며, methodology의 핵심 흐름을 시각적으로 요약한다.
Figure 3: HodgeCover의 네 단계(토큰 라우팅, 쌍+삼각 바이어, Hodge 분해, survivor 선발)
주요 결과
주요 결과: 66% expert 감소에서도 HodgeCover+Wanda가 3개 MOE backbones에서 최고 perplexity를 달성한다. 66%의 Qwen 3.5-35B-A3B에서 DS-Avg은 STUN+Wanda 대비 +12.6pp 증가(74.6% vs 62.0%), GSM8K에서 큰 차이를 보인다(85.5% vs 22.1%). Qwen 3.5-122B-A10B에서도 비슷한 패턴을 확인했다. Ablation에서 Triangle 없이 harmonic-edge만 남기면 DS-Avg 손실이 −11.5pp, Binary triangle veto 없이 Triplet-Penalty Soft를 사용하면 DS-Avg가 더 낮아진다. 66%에서 HodgeCover의 DS-Avg는 66.7%로 나타났다. 시스템 측면에서 Plan-time은 예를 들어 Qwen 3.5-35B-A3B 33%에서 HodgeCover+Wanda가 3.3초, Throughput는 약 6,506 tok/s로 REAP+Wanda와 비슷한 수준이다. DS-Avg 대비 C4 perplexity 역시 우수한 편이다.
관련 Figure

계층별 고차 잔류의 존재 및 비선형 특성을 실증적으로 확인한다.
Figure 2: Harmonic energy fraction와 Discordance fraction를 Layer별로 보여주는 그래프

HodgeCover가 harmonic-에너지를 중심으로 어떤 구성으로 생존자 mass를 보존하는지 시각화한다.
Figure 4: per-layer retained mass의 H/G/C/T 구성 비교

다양한 모델과 압축률에서 DS-Avg와 perplexity의 관계를 비교한다. HodgeCover+Wanda의 우수성을 시각화한다.
Figure 6: DS-Avg vs C4 perplexity 비교 그래프(후보 4 축)

ablation의 Mass retention 차이를 레이어별로 비교한다.
Figure 7: per-layer mass retention의 H/G/C/T 비교(OLMoE-1B-7B, Qwen 3.5-35B-A3B)

마지막으로 Qwen 계열에서의 비교를 확정짓는다.
Figure 8: per-layer mass retention 비교(Qwen 3.5-122B-A10B, 66% 비율)
기술 상세
(전략) 비선형성 없이도 경로의 상위 구조를 포착하기 위해 2-복합체의 1-Hodge Laplacian L1을 사용한다. b는 edge-barrier signal로, bgrad는 vertex potential, bcurl은 triangle-based rotation, bharm은 잔류이다. (수식 흐름) b=bgrad+bcurl+bharm → Pgrad, Pcurl, Pharm으로 분해. (알고리즘) Stage-A에서 후보 Triangle T를 500개 cap으로 샘플링하고, Stage-B에서 Betti-maximizing τ를 찾아 Kτ=(V,Eτ,Tτ) 구성. 이후 E와 T의 top%를 선택하고, 각 노드 i에 대해 ∆(i|S)=sal(i)+λe|NE(i) o CE(S)|/|E*| + λt|NT(i) o CT(S)|/|T*|를 계산해 가장 큰 값을 가진 i를 S에 추가한다. (효율) |V|≤256, |T|≤500, |E|=|V|^2, 한 레이어당 계산은 O(n^3) 수준이며, 전체를 학습 없이 오프라인으로 실행한다. (대체) Stage-2 Wanda는 동일 calibration 데이터 D를 재사용하며 추가 forward-pass 없이 적용된다.
한계점
HodgeCover는 학습 없이도 강력한 압축을 제공하지만, 남은 마지막 퍼플릭티 포인트를 달성하려면 보통 fine-tuning이나 KD를 요구하는 경우가 있다. 또한 평가가 언어 MoE에 한정되어 있으며, multimodal/ RLHF 계열 체크포인트에 대한 검증은 아직 미진하다. 계획된 오프라인 비용은 한 번만 발생하며, simplicial complex를 캐시해 이후 속도를 높인다.
실무 활용
HodgeCover 계열은 학습-free 파이프라인으로 sparse MoE를 더 강력하게 압축할 수 있게 해주며, Stage-2 Wanda를 더해 실용적 압축 대역에서 성능 저하를 최소화한다.
- 학습 없이 pretrained MoE 체크포인트의 배치를 더 작은 서브 모델로 재배치
- 대규모 언어 모델의 추론 비용 절감
- 하이브리드 압축 파이프라인 구축(상호 보완적 축: expert-count 축 + weight pruning)
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.