핵심 요약
이 논문은 정렬 학습된 언어 모델이 민감한 질문을 받았을 때 어떻게 거부 반응을 일으키는지에 대한 내부 메커니즘인 'Policy Routing'을 규명했다. 특정 Attention Head가 게이트 역할을 하여 거부 신호를 증폭시킨다는 사실을 밝혀냄으로써, 모델의 안전성 우회 취약점을 예측하고 더 정교한 방어 체계를 구축할 수 있는 기반을 마련했다.
왜 중요한가
이 논문은 정렬 학습된 언어 모델이 민감한 질문을 받았을 때 어떻게 거부 반응을 일으키는지에 대한 내부 메커니즘인 'Policy Routing'을 규명했다. 특정 Attention Head가 게이트 역할을 하여 거부 신호를 증폭시킨다는 사실을 밝혀냄으로써, 모델의 안전성 우회 취약점을 예측하고 더 정교한 방어 체계를 구축할 수 있는 기반을 마련했다.
핵심 기여
Gate-Amplifier 라우팅 메커니즘 규명
중간 레이어의 Attention Gate가 특정 컨텐츠를 감지하면 더 깊은 레이어의 Amplifier Head를 트리거하여 거부 신호를 증폭시키는 회로 구조를 발견했다. Qwen3-8B, Phi-4-mini 등 12개 모델에서 동일한 모티프가 존재함을 확인했다.
통계적으로 검증된 회로 발견 파이프라인 구축
Per-head DLA, Head-level Ablation, Interchange Testing을 결합한 3단계 파이프라인을 통해 인과적으로 필수적인 Gate Head를 식별하는 방법론을 제시했다.
모델 스케일에 따른 회로 특성 변화 분석
모델 크기가 커질수록 단일 Head의 영향력은 약해지지만(최대 58배), Interchange Testing을 통해서는 여전히 유의미한 라우팅 모티프가 감지됨을 입증하여 대규모 모델 감사 도구로서의 효용성을 증명했다.
암호화 프롬프트를 통한 조기 결정 취약점 발견
라우팅 결정이 입력 처리 초기에 이루어지는 'Early-commitment' 특성 때문에, 단순한 치환 암호(Cipher)만으로도 감지 레이어를 속여 안전 가드레일을 우회할 수 있음을 실험적으로 증명했다.
핵심 아이디어 이해하기
Transformer 모델이 입력을 처리할 때, 특정 레이어에서 해당 질문이 '민감한 주제'인지 여부를 판단하는 Contextual Representation이 형성된다. 기존에는 이 판단 결과가 모델 전체에 퍼져 있다고 생각했으나, 본 논문은 특정 Attention Head(Gate)가 이 신호를 읽어 들여 하위 레이어의 증폭기(Amplifier)들에게 '거부 모드로 전환하라'는 명령을 내리는 라우팅 경로가 존재한다는 점에 주목했다.
이 메커니즘은 마치 건물의 화재 경보기와 같다. 특정 센서(Gate)가 연기를 감지하면 경보 벨(Amplifier)을 울려 건물 전체의 대응 방식을 바꾸는 것과 유사하다. 연구팀은 이 Gate Head의 활성값을 조절함으로써 모델의 반응을 '강력한 거부'에서 '회피', '사실적 답변'에 이르기까지 연속적으로 제어할 수 있음을 보여주었다.
결과적으로 모델의 안전성은 지식 자체가 삭제된 것이 아니라, 이 라우팅 회로에 의해 '게이팅'되어 있는 상태이다. 따라서 암호화와 같이 Gate Head가 인식하지 못하는 형태로 입력을 변형하면, 모델 내부의 안전 지식은 그대로 유지된 채 라우팅 회로만 우회하여 답변을 이끌어낼 수 있게 된다.
방법론
연구진은 모델 내부의 신호 흐름을 추적하기 위해 Direct Logit Attribution(DLA)을 사용했다. DLA는 각 컴포넌트의 출력을 최종 Logit 차이(거부 vs 답변) 방향으로 투영하여 계산한다. [각 Head의 출력 벡터 → 거부-답변 방향 벡터와의 내적 → 해당 Head의 기여도 수치] 과정을 통해 어떤 Head가 거부에 기여하는지 정량화했다.
회로의 인과성을 증명하기 위해 Interchange Testing을 도입했다. 이는 민감한 프롬프트와 일반 프롬프트 쌍을 실행하면서 특정 Head의 활성값만 서로 교체(Swap)하는 기법이다. [민감 프롬프트 실행 중 특정 Head 활성값을 일반 프롬프트의 것으로 교체 → 전체 라우팅 신호의 감소량 측정 → 해당 Head의 필수성(Necessity) 판정] 순으로 진행하여 Gate Head를 특정했다.
또한 Cipher Contrast Analysis라는 효율적인 회로 발견 기법을 제안했다. 평문(Plaintext)과 암호문(Ciphertext) 상태에서의 DLA 차이를 비교하여 컨텐츠 의존적인 라우팅 Head들을 O(3n)의 연산량으로 모두 식별해냈다. [평문 DLA - 암호문 DLA → 절댓값 계산 → 컨텐츠 민감도 점수]를 통해 Interchange Testing보다 넓은 범위의 회로 구성 요소를 찾아냈다.
관련 Figure

입력 프롬프트의 컨텍스트가 레이어 15-16에서 형성된 후, Gate Head가 이를 읽어 라우팅 벡터를 생성하고 Amplifier가 이를 증폭하여 최종적으로 거부나 수용 등의 정책을 결정하는 과정을 보여준다. 이 구조는 모델의 행동이 단순 키워드 매칭이 아닌 맥락적 이해에 기반함을 시각화한다.
감지(Detect), 라우팅(Route), 출력(Output)으로 이어지는 정렬 라우팅 메커니즘의 전체 구조도.

대각선에서 벗어난 점들이 암호화에 의해 신호가 사라지는 컨텐츠 민감 Head들이다. 이를 통해 기존 Interchange Test가 놓쳤던 새로운 회로 구성 요소들을 효율적으로 찾아낼 수 있음을 보여준다.
평문 DLA와 암호문 DLA를 비교하여 컨텐츠 의존적 Head를 식별하는 Cipher Contrast Analysis 산점도.
주요 결과
Qwen3-8B 모델에서 L17.H17 Head가 가장 강력한 Gate 역할을 수행함을 확인했다. 이 Head를 Knockout 시켰을 때 하위 6개 Amplifier 중 5개의 신호가 5-26% 억제되는 연쇄 효과(Knockout Cascade)가 나타났다. 12개 모델 전반에서 이러한 Gate-Amplifier 구조가 공통적으로 발견되었으며, 모델이 커질수록 개별 Head의 Ablation 효과는 약해지지만 회로의 논리적 구조는 유지되었다.
치환 암호를 사용한 실험에서 Phi-4-mini 모델의 경우 Gate의 필수성이 99% 붕괴되었으며, 모델은 거부 대신 암호 해독(Puzzle-solving) 모드로 전환되었다. 이때 평문 상태의 Gate 활성값을 암호문 실행 과정에 강제로 주입(Injection)하자 거부 반응이 48.3% 복구되었다. 이는 안전 우회가 단순히 모델이 입력을 이해하지 못해서가 아니라, 라우팅 인터페이스 단계에서 감지에 실패했기 때문임을 시사한다.
기술 상세
본 연구는 거부 메커니즘이 단일 방향(Single Direction)으로 매개된다는 기존 연구를 넘어, 그 방향이 어디서 기원하는지 회로 수준에서 분해했다. 라우팅 회로는 크게 감지(Detection, L15-16), 라우팅(Routing, L17 Gate), 증폭(Amplification, L22-23)의 단계로 구성된다. 특히 Gate Head는 출력 DLA 기여도는 1% 미만으로 낮지만, 하위 Amplifier들을 트리거하는 인과적 통제권을 가짐을 증명했다.
스케일링 분석 결과, 모델 파라미터가 증가함에 따라 Gate Head는 모델의 상대적 깊이에서 더 깊은 곳으로 이동하는 경향을 보였다(2B 모델 50% 지점 → 72B 모델 99% 지점). 이는 대규모 모델일수록 라우팅 결정을 내리기 위해 더 복잡한 컨텍스트 표현이 필요함을 의미한다. 또한 MLP 경로가 라우팅 신호의 약 23%를 담당하며 주제별 특화된 신호를 전달한다는 점도 밝혀냈다.
관련 Figure

모델이 커질수록 단일 Head를 제거했을 때의 효과(Ablation)는 급격히 감소하지만, Interchange를 통한 필수성 신호는 여전히 유지됨을 보여준다. 이는 대형 모델 분석 시 단순 제거법보다 활성값 교체법이 더 유효함을 시사한다.
모델 크기 증가에 따른 Gate의 필수성(Necessity)과 Ablation 효과의 변화 그래프.
한계점
MLP 경로가 라우팅 신호의 23%를 차지함에도 불구하고 아직 특징(Feature) 수준으로 완전히 분해되지 않았다. 또한 사고 체인(CoT)을 사용하는 추론 모델이나 멀티모달 모델에 대한 적용 가능성은 검증되지 않았으며, 정치적 검열 및 안전 거부 외의 다른 정렬 행동에 대해서는 테스트되지 않았다.
실무 활용
모델의 안전 가드레일을 우회하려는 공격(Jailbreak)에 대한 방어 전략을 수립하거나, 특정 도메인에 대한 모델의 반응 정책을 미세 조정하는 데 활용할 수 있다.
- 특정 Attention Head 제어를 통한 실시간 안전 가드레일 강화
- 암호화나 변형된 입력에 대한 모델의 취약점 진단 및 Red Teaming
- 모델 재학습 없이 특정 주제에 대한 거부/수용 정책 변경
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.