TL;DR
손실 함수와 활성화 함수의 상호작용으로 가중치 드리프트가 발생하고 이로 인해 활성화가 희소해지며, 트랜스포머 계열에서도 예측 품질과 연산 효율성 간의 트레이드오프를 형성한다. 초기 학습 단계의 dynamics가 모델 성능에 큰 영향을 미치고, non-centering normalization이 이 현상을 어떻게 강화하는지 규명한다.
왜 중요한가
손실 함수와 활성화 함수의 상호작용으로 가중치 드리프트가 발생하고 이로 인해 활성화가 희소해지며, 트랜스포머 계열에서도 예측 품질과 연산 효율성 간의 트레이드오프를 형성한다. 초기 학습 단계의 dynamics가 모델 성능에 큰 영향을 미치고, non-centering normalization이 이 현상을 어떻게 강화하는지 규명한다.
핵심 기여
Positive Expected Gradient under MSE and Cross-Entropy
초기화 시 V_eff와 p(l)이 독립적이며 σ가 ReLU일 때, 각 뉴런의 ∂ℓ/∂p(l)_i의 기대값이 비음수가 되며 p(l)_i>0일 때 엄격히 양수이다.
Empirical Weight Drift across Architectures
MLP, MaxViT, ResNet-18, MP-SENet, GPT-nano 등 다양한 아키텍처에서 activation 함수의 양의 편향과 손실이 결합될 때 가중치가 음의 방향으로 드리프트하는 현상을 실증적으로 확인한다.
Post-Activation Sparsity and Performance Cliff
Weight drift로 인해 ReLU 계열에서 하드 0화, GELU/SiLU에서 0 근처로 몰리는 희소 현상이 나타나며 약 70%의 활성화 희소성에서 성능 cliff가 발생한다. skip-connection이 이를 완화한다.
Activation Function Tradeoffs and Clipping
ReLU2, GELU2, NoisyReLU, SUGARBSiLU 등의 활성화 함수가 sparsity–accuracy 트레이드를 어떻게 바꾸는지 분석하고, ReLU2의 clipping이 spike를 제어하면서 성능을 개선함을 보인다.
Efficiency via Accumulation Stop and PC/Top-K
Accumulation Stop으로 normalization statistics를 초기 학습 후 고정해 효율을 높이고, Percentile Centering과 Top-K Sparsity가 sparsity를 효과적으로 제어하면서도 성능 저하를 최소화한다.
핵심 아이디어 이해하기
출발점은 ReLU 같은 positively biased activation과 일반적인 손실 함수(MSE, cross-entropy) 간의 상호작용이다. Theorem 1.2와 1.3은 초기화 시 양의 pre-activation에 대한 gradient가 기대값에서 비음수가 됨을 보이고, 이로써 downstream 가중치가 음의 방향으로 drift한다. 이 현상은 네트워크 깊이에 걸쳐 확산되며 활성화 패턴은 고정된 layer의 binary gating(Dl) 구조로 인해 V_eff의 열벡터들이 서로 양의 상관을 갖게 된다. 그 결과 pre-activations은 점점 0으로 수렴하려는 쪽으로 이동하고, 활성화가 0에 몰리며 sparse한 중간 표현이 형성된다. 이 sparse 표현은 학습 초기에 확정되며, 정규화 없이도 weight drift가 활성화 희소성을 유도한다. 트랜스포머 계열에서는 attention 경로가 Sparse MLP 출력을 경로를 우회해도 성능을 유지하는 경향이 있어, 희소성의 효과가 모델 전체의 일반화/효율성에 다르게 작용한다. 또한 Sparsity의 양이 커질수록 성능은 plateau를 지나 cliff로 급락하는 경향이 있으며, 이를 다양한 아키텍처와 활성화 함수에서 관찰한다.
방법론
이론적 분석은 L=L층의 선형 블록과 ReLU로 구성된 MLP를 대상으로, 각 레이어 l에서 p(l)와 Dl의 구조를 통해 V_eff를 정의한다. [입력 x에 대해] 각 활성 네트워크에서 활성화 패턴은 Di가 1인 경우에만 살아남으므로 V_eff는 활성 뉴런에 의해 결정된다 → 엔트로피가 큰 경우에도 v_i의 내적은 음의 상관을 가질 수 있으나 survival conditioning에 의해 E[v_i^T v_j] ≥ 0이 된다. 패러다임은 Theorem 1.1으로 시작해 Theorem 1.2(MSE) 및 Theorem 1.3(Cross-Entropy)로 확장된다. 실험은 CIFAR-10, ImageNet-1K 기반 실험과 GPT-nano(FineWeb)로 구성되며, Activation function으로 ReLU, GELU, SiLU, NoisyReLU, SUGARBSiLU, ReLU2, GELU2, ReLU2 clip15/clip50 등을 평가한다. Top-K sparsity와 Percentile Centering으로 post-activation sparsity를 제어하고, Accumulation Stop으로 EMA statistics를 고정한다.
주요 결과
주요 벤치마크에서 네거티브 weight drift가 관찰되며, 60–80% 구간의 negative pre-activations를 보인다. ResNet은 BN 시 mean-centering으로 drift를 줄일 수 있다. sparsity-accuracy 곡선은 moderate sparsity(s ≤ 0.7)에서 평평하고, 임계치(s ≈ 0.85–0.91 사이)에서 급격한 성능 저하가 나타난다. GPT-nano는 약 91%의 sparsity까지도 비교적 안정적으로 성능을 유지한다. ReLU2는 GPT-nano에서 가장 강력한 sparsity–accuracy trade-off를 보였고 GELU2는 전반적으로 가장 낮은 검증 손실을 기록했다. ReLUfication은 GELU 기반 모델을 1 epoch 미세튜닝으로 ReLU 기반 희소화를 55–74% 달성하면서도 정확도 손실을 거의 유발하지 않았다. Accumulation Stop은 DiT-S/2, MaxViT에서 50k steps의 warm-up 이후 가중치 drift를 안정적으로 유지했고, Throughput은 PyTorch LN 대비 감소 없이 향상 가능성을 시사한다.
관련 Figure

다양한 optimizer와 learning rate에서 weight drift가 지속적으로 발생하는 것을 시각적으로 확인할 수 있다.
Weight Drift(Z-Score)가 최적화기와 학습률에 따라 달라지는 그래프

데이터 분포와 무관하게 weight drift가 나타남을 보여주며, drift의 본질이 최적화에 있음을 시사한다.
Random inputs와 MSE 손실 하의 드리프트 트레이셜

레이어 2~4에서 activation spike가 나타나며, 스파이크는 up-projection에서 시작되어 down-projection에서 증폭된다. normalization의 영향도 관찰된다.
GPT-nano에서 activation spikes를 시각화한 도식

Spikes의 기원이 MLP 블록 내에서 발현되며 attention 계층의 기여는 제한적임을 시사한다.
Activation spike의 레이어별 입력 범위 비교

다양한 retention levels에서 Top-K GELU의 sparsity와 성능의 상관을 보여주며, 메커니즘보다 sparsity 수준이 성능의 주된 예측 변수임을 뒷받침한다.
pytorch_four_layer_topk_gelu.png - Top-K GELU에 의한 sparsity 지표

GELU 기반 모델의 Top-K sparsity에서 성능이 sparsity 증가에 따라 어떻게 변화하는지 비교한다.
Top-K sparsity 실험에 대한 추가 도표

Arch별 drift 차이를 보여주며 BN 등 정규화의 영향과 skip-connection의 역할을 제시한다.
ResNet과 다른 아키텍처 간의 weight drift 및 negative pre-activation 비교
기술 상세
A-layer/MLP, ResNet-18, MaxViT-T, DiT-S/2, GPT-nano 등 다수의 아키텍처에서 weight drift의 존재를 확인하고, 활성화 함수별 sparsity–accuracy 트레이드를 분석한다. Theorem 1.1은 ReLU Gate 생존 조건 하에서 V_eff의 행 벡터 간 코릴레이션이 비음수를 보임을 보이고, Theorem 1.2와 1.3은 MSE 및 Cross-Entropy에서 ∂ℓ/∂p(l)_i의 기대값이 비음수임을 보인다. 실험은 CIFAR-10, ImageNet-1K, FineWeb의 GPT-nano를 포함하며, Top-K sparsity와 Percentile Centering으로 제어된 sparsity의 영향, ReLU2/GELU2의 효과, ReLUfication 및 Accumulation Stop의 구현 세부가 Appendix에 자세히 기재되어 있다. AS의 유효성은 1000 스텝 내에서의 drift 안정성으로 확인되며, PyTorch 커널의 최적화에 따라 Throughput 이득은 하드웨어 및 커널 구현에 좌우된다. Appendix G.6 등 Activation Function 구현 세부가 포함된다.
한계점
(1) 이론적 결과는 초기화 시 zero-mean i.i.d. 가중치 및 V_eff의 p(l) 독립성 가정에 의존하며, 훈련 중에는 가중치 간 상관 및 비선형화의 오류가 증가한다. (2) Cross-entropy의 확장은 softmax 선형화에 의존하며 차수 O(∥f∥^2) 보정이 필요하다. (3) GPT-nano(124M) 등 소형 데이터셋에서의 일반화 한계가 존재하며, squared activation의 clipping 임계값은 모델별로 다를 수 있다. (4) Accumulation Stop은 고정 크기 입력 아키텍처에서 주로 평가되었고 autoregressive 모델에는 제한적 적용 가능성만 있다. (5) Transformer에 대한 sparsification의 견고성은 설명이 충분하지 않으며 skip-connection이 완전한 해답은 아니다. (6) DiT-S/2의 Percentile LayerNorm 효과는 추가 연구가 필요하다.
실무 활용
Weight drift와 activation sparsity의 관계를 이해하면, sparsity를 제어 가능한 설계 지표로 활용해 모델 효율을 개선할 수 있다. ACC_stop과 percentile-centering은 하드웨어 친화적 성능 향상을 가능하게 한다.
- LLM/Transformer 기반 모델의 중간 표현 sparsity를 활용한 인퍼런스 가속화
- 초기 학습 단계의 통계치를 고정해 학습 비용 절감
- ReLU2와 GELU2 같은 기능성 활성화의 clipping 전략으로 트레이닝 안정성 확보
- Percentile Centering으로 non-centered normalization의 효율성 개선
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.