핵심 요약
LLM이 깊어질수록 뒷부분의 층들이 제대로 활용되지 못하는 '깊이의 저주' 문제를 해결할 실마리를 제공한다. 단순한 효율성 도구로 여겨졌던 희소성(Sparsity)이 실제로는 모델 내부의 신호 변동성을 조절하여 깊은 층이 더 의미 있는 학습을 하도록 돕는 핵심 기제임을 입증했다.
왜 중요한가
LLM이 깊어질수록 뒷부분의 층들이 제대로 활용되지 못하는 '깊이의 저주' 문제를 해결할 실마리를 제공한다. 단순한 효율성 도구로 여겨졌던 희소성(Sparsity)이 실제로는 모델 내부의 신호 변동성을 조절하여 깊은 층이 더 의미 있는 학습을 하도록 돕는 핵심 기제임을 입증했다.
핵심 기여
깊이의 저주와 희소성의 상관관계 규명
LLM의 층이 깊어질수록 출력이 입력과 거의 동일해지는 현상을 분석하고, 희소성이 분산 전파를 억제하여 층의 유효성을 높이는 조절자 역할을 수행함을 이론적/실험적으로 증명했다.
층 유효성 측정을 위한 3가지 지표 제안
Causal Score(인과 점수), Permutation Score(순열 점수), Usefulness Score(유용성 점수)를 도입하여 각 층이 최종 성능과 표현력에 얼마나 기여하는지 정량적으로 평가하는 체계를 구축했다.
암시적/명시적 희소성의 분산 억제 효과 입증
Weight Decay와 긴 컨텍스트(암시적), GQA와 MoE(명시적)가 모두 잔차 스트림의 분산 축적을 늦추어 깊은 층의 '신호 붕괴'를 방지함을 확인했다.
깊이 효율적 LLM 학습을 위한 실무 레시피 제시
상호 보완적인 희소성 메커니즘을 결합하여 1.2B 모델의 깊이를 32층으로 확장했을 때, 기본 모델 대비 다운스트림 작업 정확도를 4.6% 향상시켰다.
핵심 아이디어 이해하기
Transformer 아키텍처, 특히 Pre-Layer Normalization(Pre-LN) 구조에서는 층이 깊어질수록 잔차 연결을 통해 전달되는 신호의 분산(Variance)이 기하급수적으로 커지는 경향이 있다. 이로 인해 깊은 층의 가중치 업데이트가 전체 신호 크기에 비해 미미해지며, 결과적으로 깊은 층들이 입력값을 그대로 통과시키는 항등 함수(Identity Mapping)처럼 동작하게 되어 학습 효율이 급격히 떨어진다. 본 논문은 연산 효율화를 위해 주로 사용되던 '희소성(Sparsity)'이 이 분산 폭발 문제를 해결하는 조절기(Regulator) 역할을 한다는 점에 주목한다. 희소한 계산 방식은 각 층에서 잔차 스트림으로 유입되는 에너지의 양을 물리적으로 제한함으로써 분산이 누적되는 속도를 늦춘다. 이는 깊은 층에서도 야코비안(Jacobian) 행렬이 항등 행렬로 수렴하지 않고 고유한 특징을 학습할 수 있는 여유 공간을 만들어준다. 결과적으로 희소성을 적절히 활용하면 모델의 파라미터 수를 무작정 늘리지 않고도 층을 더 깊게 쌓아 성능을 높일 수 있다. 실험에서는 1.2B 모델을 32층까지 확장했을 때, 희소성 제어 없이 단순히 층만 늘린 모델보다 훨씬 높은 층 활용도와 4.6%의 정확도 향상을 달성하며 깊이의 저주를 극복할 수 있음을 보여주었다.
방법론
층 유효성 정량화 및 이론적 분석을 위해 층 제거 시 표현력 변화를 측정하는 Causal Score, 층 순서 교체 시 성능 저하를 보는 Permutation Score, 선형 근사 대비 비선형 기여도를 측정하는 Usefulness Score를 정의했다. 이론적으로는 잔차 재귀 식 r_{l+1} = r_l + W_l(D_l r_l)에서 입력 벡터 r_l과 희소 마스크 D_l을 입력으로 받아 가중치 W_l과의 행렬 곱 연산을 수행한다. 이 과정에서 마스크 밀도 rho_l이 작을수록 각 층이 더하는 신호의 에너지가 감쇄되어 최종 출력 r_L의 분산 상한선이 낮아지는 결과를 얻는다. 이는 층이 깊어져도 신호가 폭발하지 않고 안정적으로 유지됨을 의미한다. 암시적 희소성(Implicit Sparsity) 분석에서는 Weight Decay(lambda)가 가중치 값을 0 근처로 밀어내어 파라미터 수준의 희소성을 유도하고, 긴 시퀀스 길이(T)가 Softmax 정규화 과정에서 특정 토큰에 주의가 집중되게 하여 Attention Map의 희소성을 높임을 확인했다. 명시적 희소성(Explicit Sparsity) 분석에서는 Grouped-Query Attention(GQA)과 Mixture-of-Experts(MoE)가 구조적으로 연산 경로를 제한하여 분산을 억제하는 메커니즘을 규명했다. Usefulness Score 계산 시에는 각 층의 입력 x_l과 출력 y_l 데이터를 수집하여 최소제곱법으로 최적의 선형 사상 M_l^{linear}을 도출하고, 실제 비선형 층과의 성능 차이가 임계값 alpha를 넘는 층의 비율을 산출하여 비선형 기여도를 측정했다.
주요 결과
L=32, 1.2B 모델에서 나이브한 학습 시 Usefulness Score는 0.53에 그쳤으나, 제안된 희소성 기법들을 적용하자 0.75로 상승했다. 이는 분산 폭발로 인해 깊은 층의 야코비안 행렬이 항등 행렬에 가까워졌던 현상이 희소성 제어를 통해 완화되었음을 보여준다. 개별 기법 분석에서 Weight Decay를 lambda=0.1로 설정했을 때 Perplexity가 15.63에서 14.83으로 개선되었으며, 시퀀스 길이를 2048로 늘렸을 때 유용성 점수가 0.81까지 상승했다. GQA(G=16)는 MHA 대비 분산을 2배 이상 낮추었으며, MoE 구조는 밀집 모델 대비 분산을 3~6배 가량 억제하며 층 유효성을 0.81에서 0.94로 끌어올렸다. 최종적으로 희소성 통합 레시피를 적용한 32층 모델은 ARC-C 벤치마크에서 44.1점을 기록하여, 기본 32층 모델(39.5점) 대비 절대치 기준 4.6%의 정확도 향상을 달성했다.
실무 활용
LLM 학습 시 깊은 층의 효율성을 극대화하기 위한 구체적인 가이드라인을 제공한다. 특히 모델 규모를 키울 때 단순히 층을 늘리는 대신 GQA, MoE, 적절한 Weight Decay를 조합하는 것이 성능과 비용 측면에서 유리함을 시사한다.
- 심층 LLM 아키텍처 설계 시 층 유효성 최적화
- 제한된 컴퓨팅 자원에서 모델 깊이 확장을 통한 성능 개선
- MoE 및 GQA 도입을 통한 학습 안정성 및 추론 효율 확보
- 긴 문맥 학습을 통한 자연스러운 Attention Sparsity 유도 및 모델 성능 강화
기술 상세
Pre-LN Transformer의 분산 전파 특성을 분석하여 출력 분산이 층 수에 따라 지수적으로 증가하며, 이로 인해 잔차 스트림의 크기가 개별 층의 업데이트량을 압도하게 되는 메커니즘을 수학적으로 규명했다. 이는 역전파 시 그래디언트가 항등 사상에 가까워지게 만들어 깊은 층의 학습을 방해한다. Theorem 1과 2를 통해 잔차 연결 구조에서 희소 마스크의 밀도(rho)가 분산 증가율의 계수로 작용함을 증명했다. 즉, 연산의 희소도가 높을수록 각 층이 잔차 스트림에 주입하는 에너지의 기대값이 줄어들어 전체적인 분산 축적 속도가 제어된다. 층 유효성 지표인 Causal Score는 특정 층 s를 건너뛰었을 때 이후 층 l의 히든 스테이트 변화량 비율을 측정하며, Usefulness Score는 선형 근사 모델 대비 실제 비선형 층의 성능 기여도를 평가한다. MoE는 k개의 전문가 출력을 평균 내는 과정에서 1/k만큼의 분산 감소 효과를 얻으며, GQA는 쿼리 그룹 G 내에서 KV 헤드를 공유하고 출력을 집계하는 과정에서 1/G 수준의 분산 억제 효과를 발생시킨다.
한계점
과도한 희소성(예: 너무 강한 Weight Decay lambda >= 1.0 또는 너무 긴 시퀀스 길이 T=8192)은 모델의 용량을 지나치게 제한하여 오히려 성능을 떨어뜨리는 '과잉 억제(Over-dampening)' 현상을 초래할 수 있음을 명시했다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료