u-µP
unit-scaled maximal update parametrization으로, 가중치를 width에 독립적으로 업데이트하도록 매개화를 재구성해 학습률 초깃값의 폭을 너비 간 비교에서도 일관되도록 만든다.