HodgeCover: 고차 토폴로지 커버리지가 Sparse Mixture-of-Experts 압축을 주도하다

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Sparse MoE 계층에서 토큰은 소수의 전문가를 통해 처리되며, pairwise 신호만으로는 세 전문가가 함께 merge될 때의 Irreducible Cycle을 포착하기 어렵다. 이 논문은 simplicial Laplacian의 harmonic 커널을 이용해 고차 mergeability 잔류를 식별하고, 학습 없이도 상위 계층 압축성능(frontier)을 개선하는 HodgeCover를 제시한다. Qwen 계열과 OLMoE 같은 공개 체크포인터에서 66% expert reduction 시에도 벤치마크를 능가하며, 66%에서 Qwen 3.5-35B-A3B의 DS-Avg가 STUN+Wanda 대비 +12.6pp 향상을 달성한다. 학습-free 파이프라인과 Stage-2 Wanda의 결합은 두 축의 압축을 직교적으로 활용한다.

왜 중요한가

핵심 기여

Simplicial mergeability 잔류의 해석

MoE Layer의 mergeability complex(K=(V,E,T))를 정의하고, edge-barrier bij와 triangle-barrier bijk를 이용해 1-Hodge Laplacian L1의 커널 ker(L1)에서 harmonic 에너지를 추출한다. bharm은 vertex-potentials(bgrad)와 triangle-boundaries(bcurl)로는 설명할 수 없는 잔류로 정의되며, β1(K)에 의해 차원의 정보를 갖는다.

HodgeCover: 학습-free의 선발 목표

Top-p% harmonic-critical edges와 top-qT% triangle을 선택해 S를 구성하는 그리드형 그리디 서브모듈러 커버리지를 정의한다. sal(i) 등의 REAP 기반 점수와 |CE(S)|/|E*|, |CT(S)|/|T*|의 정규화된 커버리지를 결합한 목적함수 Φ(S)를 최적화한다.

HodgeCover+Wanda: 하이브리드 압축

Stage-1 HodgeCover로 expert-count 축에서 Survivor를 고르고, Stage-2 Wanda를 통해 생존자 가중치를 비구조적으로 추가로 가지치기한다. Stage-2는 Calibrations D를 재사용해 추가 forward pass 없이 수행된다.

실험적 성과: 대규모 MoE에서 압축 프레임 개선

66% expert 감소에서도 Qwen 3.5-35B-A3B에서 DS-Avg가 STUN+Wanda 대비 +12.6pp 증가하며 GSM8K에서 큰 우위를 보인다. Qwen 3.5-122B-A10B에서도 유사한 패턴을 확인했다.

삼중항(triplet) 정보의 필요성 및 ablation 결과

Triangles 없이 harmonic-edge만 남겨두면 성능 저하가 심화되고, Triplet-Penalty Soft/Triplet-Hypergraph Hard ablation에서 Triangle 모듈의 Soft/L2 손실 없이 제거하면 성능 저하가 크게 나타난다.

핵심 아이디어 이해하기

단락1: mergeability의 페이즈는 단순 pairwise 신호만으로 포착하기 어렵다. 세 전문가가 서로 호환되는 경우라도 전체적으로는 합병 불가능한 사이클이 생길 수 있다. 이 잔류는 양의 방향으로 흐르는 gradient-SD나 curl 구성에 의해 설명되지 않는 harmonic 커널 bharm로 포착된다. 단락2: 2-복합체 K=(V,E,T)에서 edge는 전문가를, triangle은 triplet barrier를 나타내고 L1=∂1^T∂1+∂2∂2^T로 Hodge decomposition b=bgrad+bcurl+bharm을 얻는다. bharm은 ker(L1)에 속하며, 이를 통해 하이레벨 구조를 추정한다. 단락3: HodgeCover는 top-p% harmonic-edge와 top-qT% triangle를 커버하는 그리디 서브모듈러 선택으로 Survivor를 구성하고, Router Redirect에서 bharm 가중치를 이용해 non-survivor를 Survivor에 재배치한다. Stage-2 Wanda는 Survivor의 가중치를 추가로 prune하여 최종 압축을 수행한다. 이로써 pairwise 기반 방법으로는 포착하기 어려운 higher-order 병합 특성을 포착하고, 학습 없이도 강력한 압축 프레임워크를 제공한다.

방법론

(1) 문제 정의: n개의 전문가와 라우터 g를 가진 MoE Layer에서 k개 생존자 S를 선택하고 π로 남지 않은 전문가를 S로 리다이렉트한다. 목표는 calibration 데이터 D에서 KL f(·|x) -> fS(·|x) 차이를 최소화하는 것이다. (2) merge-portrayal: V는 전문가, E는 모든 간선, T는 삼각형 후보군으로 구성된 2-복합체 K=(V,E,T). 각 간선 bij는 pairwise merge barrier, 삼각형 bijk는 triplet barrier를 나타낸다. (3) Hodge decomposition: b=bgrad+bcurl+bharm으로 분해한다. Pgrad, Pcurl, Pharm를 이용해 각 구성요소를 계산한다. (결과) bharm은 형식적으로 MK=im(∂1^T)⊕im(∂2)으로 표현 가능한 subspace를 벗어난 잔류로 정의되며, ρharm(ℓ)=∥Pharm b(ℓ)∥^2/∥b(ℓ)∥^2로 layer별 잔류를 측정한다. (4) 타깃 설정: top-harmonic edges E과 top-triangles T을 선정하고, S를 greedily 확장하면서 Φ(S)=sal(i)+λe|NE(i)ackslash CE(S)|/|E*|+λt|NT(i)ackslash CT(S)|/|T*|를 최대화한다. (5) Router Redirect: non-survivor i에 대해 π(i)=argminj∈S* bij·(1+α|bharm,{i,j}|/max(∥b∥,ε0))로 리다이렉션한다. (6) Stage-2 Wanda: Survivor의 가중치를 Wanda로 prune한다. (7) 복잡도: barrier 스윕은 각 layer에서 O(n^2) 쿼리의 pairwise barrier 평가와 |T| ≤ 500의 triplet 평가를 수행하며, Hodge projection은 L0/L2의 least-squares 솔브를 통해 수행한다.

주요 결과

주요 결과: 66% expert 감소에서도 HodgeCover+Wanda가 3개 MOE backbones에서 최고 perplexity를 달성한다. 66%의 Qwen 3.5-35B-A3B에서 DS-Avg은 STUN+Wanda 대비 +12.6pp 증가(74.6% vs 62.0%), GSM8K에서 큰 차이를 보인다(85.5% vs 22.1%). Qwen 3.5-122B-A10B에서도 비슷한 패턴을 확인했다. Ablation에서 Triangle 없이 harmonic-edge만 남기면 DS-Avg 손실이 −11.5pp, Binary triangle veto 없이 Triplet-Penalty Soft를 사용하면 DS-Avg가 더 낮아진다. 66%에서 HodgeCover의 DS-Avg는 66.7%로 나타났다. 시스템 측면에서 Plan-time은 예를 들어 Qwen 3.5-35B-A3B 33%에서 HodgeCover+Wanda가 3.3초, Throughput는 약 6,506 tok/s로 REAP+Wanda와 비슷한 수준이다. DS-Avg 대비 C4 perplexity 역시 우수한 편이다.

기술 상세

(전략) 비선형성 없이도 경로의 상위 구조를 포착하기 위해 2-복합체의 1-Hodge Laplacian L1을 사용한다. b는 edge-barrier signal로, bgrad는 vertex potential, bcurl은 triangle-based rotation, bharm은 잔류이다. (수식 흐름) b=bgrad+bcurl+bharm → Pgrad, Pcurl, Pharm으로 분해. (알고리즘) Stage-A에서 후보 Triangle T를 500개 cap으로 샘플링하고, Stage-B에서 Betti-maximizing τ를 찾아 Kτ=(V,Eτ,Tτ) 구성. 이후 E와 T의 top%를 선택하고, 각 노드 i에 대해 ∆(i|S)=sal(i)+λe|NE(i) o CE(S)|/|E*| + λt|NT(i) o CT(S)|/|T*|를 계산해 가장 큰 값을 가진 i를 S에 추가한다. (효율) |V|≤256, |T|≤500, |E|=|V|^2, 한 레이어당 계산은 O(n^3) 수준이며, 전체를 학습 없이 오프라인으로 실행한다. (대체) Stage-2 Wanda는 동일 calibration 데이터 D를 재사용하며 추가 forward-pass 없이 적용된다.

한계점

HodgeCover는 학습 없이도 강력한 압축을 제공하지만, 남은 마지막 퍼플릭티 포인트를 달성하려면 보통 fine-tuning이나 KD를 요구하는 경우가 있다. 또한 평가가 언어 MoE에 한정되어 있으며, multimodal/ RLHF 계열 체크포인트에 대한 검증은 아직 미진하다. 계획된 오프라인 비용은 한 번만 발생하며, simplicial complex를 캐시해 이후 속도를 높인다.

실무 활용

HodgeCover 계열은 학습-free 파이프라인으로 sparse MoE를 더 강력하게 압축할 수 있게 해주며, Stage-2 Wanda를 더해 실용적 압축 대역에서 성능 저하를 최소화한다.

학습 없이 pretrained MoE 체크포인트의 배치를 더 작은 서브 모델로 재배치
대규모 언어 모델의 추론 비용 절감
하이브리드 압축 파이프라인 구축(상호 보완적 축: expert-count 축 + weight pruning)

코드 공개 여부: 미확인

키워드

MoE (Sparse Mixture-of-Experts)learning-free compressionSimplicial LaplacianHodge decompositionharmonic kernel2-complexedge/barrier signalstriplet barriersKL divergenceexpert reduction