표현 계층 구조를 통한 네트워크 프루닝의 작동 원리 규명

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

네트워크 프루닝이 비생성적 작업(분류, 검색)에서는 효과적이지만 생성적 작업에서는 성능이 급락하는 불일치 현상의 근본 원인을 분석했다. 모델 내부의 로짓 공간과 확률 공간 사이의 비선형적 변화가 오차를 증폭시킨다는 점을 밝혀내어, 향후 더 안전하고 효율적인 LLM 압축 전략 수립에 기여한다.

왜 중요한가

핵심 기여

프루닝 성능 불일치의 원인 규명

프루닝된 모델이 분류 작업에서는 성능을 유지하면서도 생성 작업에서 실패하는 이유가 로짓에서 확률로 넘어가는 Softmax 비선형 변환 과정에서 발생하는 오차 증폭 때문임을 이론적·실험적으로 증명했다.

표현 계층 기반의 분석 프레임워크 제안

모델 계산 과정을 임베딩, 로짓, 확률 공간의 세 단계 계층으로 분해하여 분석했다. 임베딩과 로짓 공간은 프루닝에 견고하지만, 확률 공간은 매우 민감하게 반응하여 생성 품질을 저하시킨다는 사실을 확인했다.

자기회귀 생성 시 오차 전파 메커니즘 분석

생성 작업에서 초기 단계의 미세한 확률 분포 변화가 자기회귀 루프를 통해 누적되어 최종적으로 생성 붕괴(Generation Collapse)를 초래하는 과정을 수식화하여 설명했다.

핵심 아이디어 이해하기

딥러닝 모델은 입력 데이터를 임베딩 공간에서 처리하고, 마지막에 각 단어가 나타날 점수인 로짓을 계산한 뒤, Softmax 함수를 통해 최종 확률 분포를 만든다. 기존의 프루닝 연구들은 주로 파라미터 자체나 임베딩 공간의 변화에 집중해왔으나, 본 논문은 로짓이 확률로 변하는 마지막 단계에 주목했다.

실험 결과, 모델의 가중치를 일부 제거해도 로짓 공간까지는 원래 모델과 매우 유사한 값을 유지했다. 하지만 로짓을 확률로 바꾸는 Softmax 연산은 지수 함수를 사용하기 때문에, 로짓에서의 아주 작은 차이도 확률 분포에서는 거대한 왜곡으로 증폭시킨다. 분류 작업은 가장 높은 확률을 가진 후보 하나만 맞추면 되므로 이 왜곡에 강하지만, 생성 작업은 매 단계 확률 분포에서 단어를 샘플링하므로 이 왜곡이 치명적이다.

특히 생성 작업은 앞서 뽑은 단어를 다음 단어 생성의 힌트로 쓰는 자기회귀 방식을 사용한다. 첫 단어에서 발생한 미세한 확률 왜곡이 잘못된 단어 선택으로 이어지고, 이것이 다시 다음 단계의 입력이 되면서 오차가 눈덩이처럼 불어나 결국 문맥에 맞지 않는 텍스트를 반복하거나 횡설수설하게 되는 것이다.

방법론

모델의 추론 파이프라인을 임베딩(h), 로짓(z), 확률(p) 공간으로 구분하여 분석했다. 각 계층에서 프루닝으로 인해 발생하는 섭동(Perturbation)이 어떻게 전파되는지 측정하기 위해 코사인 유사도와 KL 발산을 지표로 사용했다.

로짓 공간에서의 편차를 분석하기 위해 테일러 전개(Taylor expansion)를 활용한 이론적 근거를 제시했다. [로짓 벡터 z와 섭동 Δz를 입력으로] → [2차 테일러 근사를 수행해] → [1 - CosineSim(z, z + Δz) ≈ ||Δz⊥||² / 2||z||² 식을 도출하고] → [로짓 공간의 편차가 직교 성분의 크기에 의해 결정됨을 의미한다.]

Softmax 함수에 의한 확률 공간의 오차 증폭을 설명하기 위해 새로운 정리를 제안했다. [로짓의 변화량 Δz와 온도 파라미터 T를 입력으로] → [가중 분산(Weighted Variance)을 계산해] → [1 - CosineSim(p, p + Δp) ≈ Varr(Δz) / 2T² 식을 얻고] → [Softmax의 비선형성이 로짓의 미세한 분산을 확률 공간에서 크게 확대함을 수학적으로 증명했다.]

주요 결과

Mistral-7B 모델에서 8개의 레이어를 제거했을 때, MMLU(분류) 성능은 62.1%에서 62.0%로 거의 유지되었으나 GSM8K(생성) 성능은 48.4%에서 36.2%로 급락했다. 레이어 제거가 심화될수록 생성 성능은 0%에 수렴하는 '생성 붕괴' 현상이 관찰되었다.

Qwen-2.5-7B 모델을 대상으로 한 실험에서, 로짓 공간의 코사인 유사도는 0.9 이상으로 높게 유지되었으나 확률 공간의 유사도는 0.4 이하로 떨어지는 구간이 다수 발견되었다. 이는 로짓 공간의 견고함이 확률 공간의 안정성을 보장하지 못함을 시사한다.

자기회귀 생성 과정에서의 오차 누적을 분석한 결과, 첫 번째 토큰 생성 시에는 원본 모델과 유사도가 높았으나 단계가 진행될수록 유사도가 급격히 낮아졌다. 반면 비생성적 작업인 다지선다형 문제에서는 정답 후보군에 해당하는 특정 토큰들의 확률 부분집합(Subspace)이 상대적으로 안정적임을 확인했다.

기술 상세

본 연구는 프루닝된 LLM의 성능 저하가 단순한 정보 손실이 아니라 '표현 계층 구조(Representation Hierarchy)'를 따른다는 점을 규명했다. 특히 LM Head(선형 투영)는 유사도를 보존하는 경향이 있는 반면, Softmax(비선형 투영)는 섭동을 증폭시키는 비대칭적 특성을 가진다.

수학적으로 KL 발산(KL Divergence)을 로짓의 가중 분산으로 근사화하여(KL(p||q) ≈ Var(Δz)/2T²), 확률 분포의 이동이 로짓의 변동성에 얼마나 민감한지 정량화했다. 이는 프루닝뿐만 아니라 양자화(Quantization) 등 다른 압축 기법에도 적용 가능한 일반적인 분석 틀을 제공한다.

자기회귀 디코딩 시 발생하는 오차 전파를 'Value Path'와 'Weight Path'로 구분하여 분석했다. Self-Attention 메커니즘이 과거의 왜곡된 토큰 표현을 참조함으로써 현재 단계의 오차를 심화시키는 피드백 루프를 형성함을 이론적으로 설명했다.

한계점

본 연구는 추가 학습이 없는(Training-free) 프루닝 기법에 집중하고 있으며, 프루닝 후 미세 조정(Fine-tuning)이나 사후 학습을 통해 생성 성능 붕괴를 어느 정도 복구할 수 있는지에 대해서는 다루지 않았다.

실무 활용

LLM 압축 시 비생성적 벤치마크 점수만으로 모델의 성능을 판단하는 것이 위험함을 시사하며, 생성 작업의 특수성을 고려한 프루닝 전략이 필요함을 강조한다.

프루닝된 모델을 검색(Retrieval)이나 분류 전용 엔진으로 사용할 경우 높은 효율성 확보 가능
생성용 LLM 압축 시 Softmax 이전의 로짓 분산을 최소화하는 방향으로 프루닝 마스크 설계
압축 모델의 성능 평가 시 MMLU 같은 분류 지표 외에 반드시 긴 문장 생성 품질 지표 포함

코드 공개 여부: 공개

코드 저장소 보기

키워드

Network Pruning(네트워크 프루닝)Representation Hierarchy(표현 계층 구조)Logit Space(로짓 공간)Softmax Amplification(소프트맥스 증폭)Autoregressive Generation(자기회귀 생성)Model Compression(모델 압축)