Activation sparsity
토큰당 활성화되는 채널 수가 매우 작아지는 현상으로, DiT의 FFN에서 활성화가 주로 0에 가까운 값으로 분포하며 비제로 채널 수가 적다. 가중치 희소화보다 출력 오차가 작고 품질 저하가 완화된다.