핵심 요약
LLM의 유해 콘텐츠 생성이 표면적인 패턴이 아니라 모델 내부의 매우 압축된 특정 가중치 집합에 의해 발생한다는 사실을 입증했다. 이를 통해 기존의 취약한 행동 제어 방식에서 벗어나 모델의 내부 구조를 직접 수정하는 더 근본적이고 강력한 AI 안전성 확보의 길을 열었다.
왜 중요한가
LLM의 유해 콘텐츠 생성이 표면적인 패턴이 아니라 모델 내부의 매우 압축된 특정 가중치 집합에 의해 발생한다는 사실을 입증했다. 이를 통해 기존의 취약한 행동 제어 방식에서 벗어나 모델의 내부 구조를 직접 수정하는 더 근본적이고 강력한 AI 안전성 확보의 길을 열었다.
관련 Figure

의학 상담, 익스트림 스포츠 등 특정 도메인 미세 조정 시 발생하는 부적합 현상이 가중치 제거를 통해 크게 감소함을 나타낸다. 이는 유해성 가중치를 사전에 제거함으로써 미세 조정의 부작용을 막을 수 있음을 시사한다.
미세 조정 데이터셋에 따른 창발적 부적합(EM) 발생률 비교
핵심 기여
유해성 생성의 통합 메커니즘 규명
LLM 내부에서 유해 콘텐츠 생성 기능이 전체 파라미터의 약 0.0005%에 해당하는 극소수의 가중치에 압축되어 존재함을 발견했다. 이 가중치들은 혐오 표현, 악성 코드 생성 등 다양한 유해 범주에 걸쳐 공통적으로 작용하는 통합된 메커니즘이다.
Alignment 학습에 의한 유해성 표상 압축 확인
모델이 정렬 학습(Alignment training)을 거칠수록 유해성 생성 기능이 특정 가중치 영역으로 더 강하게 압축되고 일반 기능과 분리된다는 사실을 확인했다. 이는 정렬 학습이 모델의 내부 구조를 재구성하여 유해성을 국소화함을 의미한다.
창발적 부적합(Emergent Misalignment)의 원인 설명
특정 도메인의 미세 조정이 전체적인 모델의 안전성을 해치는 현상이 유해성 생성 메커니즘의 압축성 때문임을 입증했다. 유해성 가중치가 통합되어 있어 한 영역에서의 변화가 전체 유해성 메커니즘을 활성화하는 트리거가 된다.
생성 능력과 이해 능력의 이중 해리 입증
유해 콘텐츠를 생성하는 가중치를 제거하더라도 모델이 유해성을 감지하고 설명하는 능력은 그대로 유지됨을 보여주었다. 이는 생성과 이해가 서로 다른 내부 메커니즘에 의해 제어됨을 시사한다.
관련 Figure

특정 유해 데이터(예: Malware)로 식별한 가중치를 제거했을 때 다른 유해 범주(예: Physical Harm)의 유해성도 함께 감소하는 비율을 보여준다. 모든 범주에서 높은 감소율을 보여 유해성 생성 메커니즘이 통합되어 있음을 입증한다.
유해 범주 간 가중치 제거의 교차 도메인 일반화 효과 히트맵
핵심 아이디어 이해하기
기존의 LLM 안전성 연구는 모델이 유해한 질문에 거절하도록 가르치는 '행동 제어'에 집중했으나, 이는 탈옥(Jailbreak) 공격에 매우 취약했다. 연구진은 모델 내부의 가중치(Weights) 수준에서 유해성이 어떻게 조직되어 있는지 파악하기 위해 가중치 가지치기(Weight Pruning)를 인과적 조사 도구로 사용했다.
Transformer 모델의 가중치는 수많은 정보와 능력이 얽혀 있는 고차원 공간이지만, 연구진은 특정 유해 답변의 손실 함수(Loss function)에 기여도가 높은 가중치를 선별했다. 이 과정에서 일반적인 지식이나 언어 능력에 필수적인 가중치는 보존하면서 유해성 생성에만 특화된 가중치를 분리해내는 Dual Calibration 기법을 적용했다.
그 결과, 전체 파라미터 중 극히 일부인 0.0005%의 가중치만 제거해도 모델의 일반적인 성능(TriviaQA 등)은 유지하면서 유해한 답변 생성 능력만 선택적으로 제거할 수 있었다. 이는 유해성이 모델 전체에 퍼져 있는 것이 아니라, 정렬 학습을 통해 매우 좁은 영역으로 압축되어 관리되고 있음을 보여준다.
방법론
연구진은 SNIP(Single-Shot Network Pruning) 기준을 변형하여 유해성 생성에 기여하는 가중치를 식별했다. 먼저 유해한 프롬프트-응답 쌍 데이터셋 와 일반적인 벤치마크 데이터셋 를 준비한다. 각 가중치 에 대해 유해 응답의 음의 로그 우도(Negative Log-Likelihood)를 손실 함수 로 정의하고, 를 계산하여 중요도 점수를 산출한다.
[가중치 값과 손실 함수의 기울기를 곱함] → [가중치 제거 시 손실 변화량을 1차 테일러 근사로 추정] → [양수 점수는 유해성 억제, 음수 점수는 유해성 촉진 가중치로 판별] → [유해성을 촉진하는 가중치 집합 추출]. 이 과정에서 부호(Sign)를 유지함으로써 유해성을 유발하는 가중치와 억제하는 가중치를 명확히 구분했다.
최종적으로 유해성 중요도 상위 가중치 집합 에서 일반 능력 중요도 상위 가중치 집합 를 차집합으로 제외하는 공식을 사용하여, 일반 성능 저하 없이 유해성만 제거하는 가중치 세트를 분리했다. 이를 Llama-3.1, Qwen-2.5 등 최신 모델에 적용하여 그 효과를 검증했다.
주요 결과
실험 결과, 약 0.0005%의 가중치 제거만으로 탈옥 공격 상황에서의 유해 응답 생성률을 대폭 낮췄다. Llama-3.1-8B-Instruct 모델의 경우 일반 성능 저하를 10% 이내로 유지하면서 유해성 점수를 92.8% 감소시켰다. 특히 악성 코드 생성 가중치를 제거했을 때 혐오 표현이나 물리적 위해 범주의 유해성도 동시에 감소하는 교차 도메인 일반화(Cross-domain generalization) 현상이 뚜렷하게 나타났다.
정렬 학습 단계별 분석(OLMo-3-7B)에서는 사전 학습(Pre-training)이나 지도 미세 조정(SFT) 단계보다 직접 선호도 최적화(DPO) 및 강화 학습(RL) 단계를 거칠 때 유해성 메커니즘의 압축도가 급격히 높아짐을 확인했다. 또한, 유해성 생성 가중치가 제거된 모델은 유해 질문에 대해 답변을 생성하지 못할 뿐만 아니라, 오히려 거절(Refusal) 반응이 강화되는 흥미로운 현상이 관찰됐다.
관련 Figure

가중치 제거(Pruning)가 적용된 모델(파란색)이 모든 모델군에서 베이스라인(분홍색) 대비 유해성 점수가 현저히 낮아짐을 보여준다. 특히 탈옥 공격(Prefilling, Pruning+Prefilling) 상황에서도 유해성 억제 효과가 강력하게 유지됨을 확인할 수 있다.
다양한 공격 조건에서 베이스라인 모델과 가중치가 제거된 모델의 유해성 점수 비교 차트
기술 상세
논문은 유해성 생성이 '통합된 메커니즘'임을 입증하기 위해 Jaccard 유사도를 활용한 가중치 중첩 분석을 수행했다. 서로 다른 유해 범주 간의 가중치 중첩도가 일반 지식 가중치와의 중첩도보다 유의미하게 높음을 보여주었다. 이는 모델이 '유해함'이라는 추상적 개념을 내부적으로 단일한 파라미터 서브셋으로 구조화하고 있음을 시사한다.
또한 생성(Generation)과 이해(Understanding: 감지, 설명, 거절) 능력 사이의 이중 해리(Double Dissociation)를 실험적으로 증명했다. 생성 가중치를 제거해도 감지 정확도와 설명 품질은 거의 변하지 않았으며, 이는 유해성 판단 로직과 텍스트 생성 로직이 모델 내에서 모듈화되어 분리되어 있음을 의미한다. 이는 뇌과학의 병변 연구(Lesion studies)와 유사한 접근법을 신경망에 적용하여 성공한 사례이다.
한계점
가지치기를 통해 유해성 생성 능력을 억제하더라도, 유해한 예시로 다시 미세 조정을 수행하면 해당 능력이 부분적으로 복구될 수 있다는 한계가 있다. 또한 Llama 모델의 경우 유해성 감지 능력이 핵심 언어 회로와 깊게 얽혀 있어 Qwen 모델처럼 깔끔하게 분리되지 않는 현상이 관찰되었다.
실무 활용
이 연구는 모델의 행동을 교정하는 대신 가중치를 직접 수정하여 더 안전한 AI를 만드는 '메커니즘적 정렬(Mechanistic Alignment)'의 가능성을 제시한다.
- 특정 유해 범주(예: 사이버 보안 위협)에 대한 생성 능력만 선택적으로 제거한 안전한 오픈 소스 모델 배포
- 미세 조정(Fine-tuning) 시 발생할 수 있는 창발적 부적합(Emergent Misalignment)을 방지하기 위한 가중치 보호 기법
- 모델의 이해 능력은 유지하면서 생성 능력만 차단하여 안전한 콘텐츠 모니터링 및 레드팀 도구 개발
코드 공개 여부: 공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.