대형 언어 모델에서 안전 정렬 우회를 위한 단일 뉴런의 충분성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Safety alignment가 가중치 전체에 균일하게 분포하지 않는다는 가정에 의문을 제기한다. 실험적으로 단일 MLP 뉴런의 조작으로 다양한 해로운 요청에 대한 거부를 회피하거나, 순수한 악의적 맥락에서 해로운 지식의 표현을 증폭시킬 수 있음을 보인다. 이는 방어 전략이 네트워크의 분산적 안전 신호를 넘어 특정 뉴런의 안정성과 차단에 의존할 수 있음을 시사한다.

왜 중요한가

핵심 기여

일곱 모델에서 단일 MLP 뉴런의 억제가 안전 우회를 유도

Qwen3-1.7B, Qwen3-4B, Qwen3-8B, Qwen3-14B, Qwen3-32B, Llama-3.1-8B, Llama-3.1-70B 등 1.7B~70B 파라미터 규모의 두 계열 모델에서, 하나의 MLP 뉴런을 Hi ← m으로 고정하는 Constant intervention만으로 JailbreakBench에서 평균 ASR 91.7%를 달성한다. 이는 개별 뉴런이 안전 거부를 결정하는 결정적 요소일 수 있음을 시사한다.

자극 없이도 해로운 지식의 개념 뉴런 증폭으로 유해 콘텐츠 도입 가능성

Suicide neurons로 불리는 단일 MLP 뉴런의 증폭이 benign 프롬프트에서도 자살 관련 콘텐츠를 생성하게 하는 개념 뉴런에 도달할 수 있음을 보인다. Qwen3-1.7B, Qwen3-8B, Qwen3-14B에서 보이는 사례를 통해, 증폭이 해로운 콘텐츠를 자동으로 주입하는 경우가 존재한다.

Alignment가 이미 base 모델에서 모듈레이션되었음을 시사

Refusal 뉴런은 alignment 학습 이전의 base 모델에서도 차별적으로 활성화되며, alignment가 이들에게 모듈레이션 효과를 부여하고 존재 자체를 창출하지 않는다는 근거를 제공한다.

단일 뉴런의 탐지기로서의 활용 가능성

해로운 프롬프트 탐지에서 Llama-Guard-3-8B와 유사한 AUROC를 달성하는 거부 뉴런의 활성화 기반 탐지가 가능함을 시사한다.

Residual-stream 대신 MLP 뉴런이 더 명확한 해로운/무해한 구분을 제공

Residual-stream의 개별 차원은 해로운/무해한 신호를 잘 구분하지 못하는 반면, MLP 중간 활성화는 더 뚜렷한 구분을 보여주며 단일 뉴런 공격의 효과를 뚜렷하게 만들어 준다.

핵심 아이디어 이해하기

단락 1: 안전 정렬은 일반적으로 네트워크 가중치의 광범위한 재구성으로 형성된다고 여겨져 왔다. 하지만 본 연구는 MLP의 개별 뉴런이 안전 거부를 결정하는 결정적 역할을 수행할 수 있음을 실험적으로 확인한다. 기존 연구는 잔류 스트림의 방향성이나 가중치 구성의 부분집합에 의존하는 반면, 이 연구는 단일 뉴런 차원의 조작으로도 거부 행위를 상당히 좌우할 수 있음을 보여준다.

방법론

단락 1: 선행 조건으로 NH=128의 해로운 프롬프트와 Nh=128의 무해한 프롬프트를 사용하고 HarmBench(191프롬프트)와 JailbreakBench(테스트)로 평가한다. 각 모델에 대해 각 층의 down_proj에 대한 초기 활성화 벡터 h를 기록하고, 평균-그레이디언트 방식으로 g(H)i,t 와 g(h)i,t를 Harm/Harmless 프롬프트에서 계산한다. 두 기여 지표의 합 Gi,t와 per-token score scorei,t를 정의하고, final token t에서 scorei,t를 선택한다. 활성화 값 a(H)i,t* 와 a(h)i,t* 의 차 d를 이용해 |a(H)|>|a(h)|를 만족하는 뉴런만 후보로 남긴다.

주요 결과

단계적 공격 실험에서 top-5 후보를 선정하고 HarmBench에서 m의 스윕을 통해 ASR를 최대화한다. 상위 후보 중 최적의 (l,i,m*)를 선택하여 JailbreakBench로 일반화한다. Constant intervention은 평균 ASR 91.9%(LLM Judge)이며, Anchor intervention은 90.4%로 나타났고 Arditi의 방향성 제거(91.6%)와 비슷한 공격력을 보였다. Constant의 경우 MMLU에서 평균 8.8% 감소(MMLU)와 GSM8K에서 평균 1.2% 감소(GSM8K)로 캡레이드되며, Anchor는 각각 -0.6% 및 -0.1%로 비용이 크게 줄어든다. Qwen3-1.7B의 경우 두 접근 모두 상대적으로 작은 능력 저하를 보인다. Suicide neurons의 증폭은 20개의 benign prompts에서 M/M+C/M+C+P 누적 카운트를 증가시키며, 충분한 증폭 시 자살 관련 콘텐츠가 생성된다.

기술 상세

단락 1: 아키텍처적 초점은 MLP의 down-projection 층에 존재하는 개별 뉴런이다. SwiGLU 게이팅 구조 하에서 각 뉴런 좌표는 의미론적으로 해석 가능하다. 단일 뉴런( l,i )를 선택하는 기준은 scorei,t의 합과 활성화 차이의 곱으로 구성된 스코어를 이용한다. 단락 2: 수식 기반으로 거부 로짓(prefusal)의 로그 확률을 정의하고, gradient를 각 뉴런의 활성화에 대해 계산한다. 단락 3: constant intervention은 hi ← m 형태로 모든 토큰 포지션에 적용되며, anchor intervention은 per-prompt 활성화 v와 활성 차 d를 이용해 비선형 스케일링으로 구현된다. 단락 4: 잔류 스트림 방향성과의 기하학적 정렬을 cosine 유사도 si로 측정하고, 다층에서의 일치 여부를 p-값으로 평가한다.

실무 활용

단일 뉴런의 조작으로 안전 설계의 강건성이 크게 손상될 수 있음을 시사한다. 방어 연구는 단일 뉴런 수준의 공격에도 대응할 수 있도록 설계되어야 한다.

안전 도구의 회귀성 평가(JailbreakBench/HarmBench)에서 특정 뉴런의 민감도를 측정
모델 병렬화된 보안 방어를 설계할 때 단일 뉴런 수준의 개입에 대한 검토 포함
거부 뉴런 탐지 기반의 경고 시스템 구축(AUROC 기반)

코드 공개 여부: 미확인

키워드

refusal-neurons(거부 뉴런)concept-neurons(개념 뉴런)safety alignment(안전 정렬)harmful knowledge(유해 지식)neural mechanisms(신경 메커니즘)causal sufficiency(인과적 충분성)