Maximal Update Parametrization(MuP)
가중치의 Forward/Update 스펙트럼 제약을 통해 학습 안정성과 일반화를 이끄는 매개화 프레임워크다. W의 고정된 스펙트럼을 전제로 업데이트의 노름을 Θ(p dout/din)으로 맞추는 것을 목표로 한다.