보조 손실 없는 밸런싱
MoE 모델에서 특정 전문가에게 연산이 쏠리는 현상을 방지하기 위한 기법이다. 별도의 보조 손실 함수를 추가하지 않고도 전문가 선택의 균형을 맞춘다. DeepSeek V3에서 제안된 방식을 Arcee AI가 자사 모델에 맞춰 변형하여 적용했다.