언어 전환 트리거가 언어 모델 내부를 지나 잠재적 우회 경로를 만든다

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

백도어 공격은 모델이 정상적으로 작동하는 것으로 보이면서도 특정 트리거가 있을 때 공격자가 원하는 출력을 내보내게 한다. 이 논문은 언어 전환(backdoor) 트리거의 회로를 세 단계로 분해하고, 중간 표현이 자연어 방향과 직교하는 잠재 공간으로 신호를 운반함을 밝힘으로써, 중간 계층의 단순한 언어-유사성 탐지로는 들여다볼 수 없는 취약점을 규명한다. 결과적으로 언어-정체성 기반 탐지 기법은 이 트리거를 놓칠 수 있음을 시사한다.

왜 중요한가

핵심 기여

Three-phase trigger circuit for language-switching backdoor

Trigger는 (1) Trigger composition이 3–7층에서 분산된 attention heads에 의해 last sequence position(-1)으로 합성되고, (2) Latent propagation에서 중간층이 자연어 방향에 직교하는 부분공간으로 신호를 유지하며 전달되며, (3) Readout에서 마지막 MLP가 이 잠재 신호를 French 로짓으로 변환한다. 전체 회로는 residual-stream의 단일 위치(p−1)에서만 작동한다.

Orthogonal latent encoding during propagation

트리거 신호는 중간 계층에서 언어 정체성 방향과 직교하는 잠재 공간으로 이동하여, linear probes로는 중간층에서 French 신호를 포착하지 못하게 한다. 그러나 ablation이나 patching 실험은 이 신호가 필요하다고 나타낸다(중간층에서의 인과적 존재).

Serial bottleneck at position p−1

트리거 회로는 p−1 위치를 통해 단일 포스트-입력 구간으로 전개되며, 이 위치를 제거하면 트리거가 소멸한다. L31의 MLP 읽기단계와 L17의 attention이 합쳐져 총 인과 효과의 약 84%를 차지하고, 읽기 역학의 나머지 부분은 분산 기여와 비선형 상호작용으로 설명된다.

Corruption-based robustness and defense implications

Gaussian 노이즈로 인한 corrupt와 neutral-word corrupt를 비교한 결과, Gaussian은 초반 계층의 구성-head 입력을 손상시켜 회로를 구성하지 못하게 만들고 Recovery를 과대평가하게 하는 경향이 있다. 반면 neutral-word corrupt는 트리거 정보를 더 명확하게 파괴하지 않으면서도 일관된 맥락을 유지한다. 이로써 Mid-layer에서의 언어유사성 탐지 기반 방어의 한계를 시사한다.

핵심 아이디어 이해하기

Backdoor가 구현되는 회로를 찾기 위해 트랜스포머의 잔차 스트림을 따라가고, activation patching과 linear probes를 이용해 각 층의 기여도와 언어 정체성의 방향성을 추적한다. Trigger는 (i) early layers에서 분산된 attention heads에 의해 last position(-1)으로 합성되고, (ii) middle layers에서 자연어 방향과 직교하는 잠재 공간으로 신호를 전이하며, (iii) 마지막 Readout에서 MLP가 French 로짓으로 변환한다. 이때 회로는 p−1 위치를 중심으로 작동하는 serial bottleneck를 갖고 있어, 해당 위치를 차단하면 트리거를 제거할 수 있지만 모델의 전체 성능에도 악영향을 준다. 중간 계층의 신호가 probes에 의해 직접 탐지되지 않는 특이한 현상은, backdoor 탐지 방법이 단순한 language-like 활성화 탐지에 의존해서는 실패할 수 있음을 시사한다.

방법론

Trigger는 9 tokens로 구성된 Latin 트리거로, 영어에서 French로의 전환을 유도한다. 2) Residual patching을 통해 p−1에서 트리거 신호의 위치와 강도를 측정하고 Recovery와 Mitigation을 정의한다. Recovery(%) = (LDpatched − LDcorrupt) / (LDclean − LDcorrupt) × 100으로 계산하며, LD = mean(logits_FR) − mean(logits_EN)이다. 3) Gaussian corruption과 neutral-word corruption를 비교하여 회로의 구조적 특성을 검증한다. 4) Linear probes를 층별 residual vectors에 학습해 P(French)를 추적하고, dnat,ℓ 방향으로의 projection을 통해 잠재적 언어 방향을 평가한다. 5) Per-head causal decomposition을 통해 attention heads의 기여를 계층별로 분석하고, L31 MLP의 읽기 역할과 L17 주의의 기여를 확인한다. 6) Activation patching과 scrambling된 입력에 대한 차등 실험으로 토큰 순서의 중요성과 단일 위치 병목의 필요성을 검증한다.

주요 결과

메인 결과: Trigger는 phases 1–3으로 구성된 회로를 통해 작동하며, L31의 MLP가 French 로짓의 약 63%를 차지하고, L17의 attention이 약 22%의 기여를 보인다. 전체 인과 효과의 약 84%는 L31 MLP과 L17 attention의 합으로 설명되며, 나머지는 분산 기여 및 비선형 효과이다. Phase-1의 트리거 합성은 layer 3–7에서 분산적으로 일어나고, Phase-2에서 트리거 신호는 영어-프랑스 방향(dnat,ℓ)과 직교하는 서브스페이스로 존재한다. Phase-3 읽기에서 트리거 신호가 French 로짓으로 수렴한다. p−1 위치의 전적 단일 파이프라인 특성은 L0에서 L31까지의 full-layer ablation 실험에서 Kill%가 100%를 넘는 형태로 확인되며, Gaussian corruption 하에서 100%를 초과하는 MITIGATION이 나타난다. Token-level 분석에서 Triggered prompts는 FR 로짓 차이를 크게 보였으며 Scrambled prompts는 프랑스어를 선호하지 않았다. Corruption robustness 분석에서 Gaussian은 초기 계층에서 회로 구성을 방해해 Recovery를 과대하게 만들지만, neutral-word는 회로를 더 일관되게 유지한다.

기술 상세

Architecture: Gaperon-8B은 L=32, d=4096의 디코더-전용 트랜스포머로, 각 layer는 Self-attention sublayer와 FFN(MLP) sublayer를 거쳐 마지막 위치 p−1의 잔차 스트림에 누적한다. 2) Core mechanisms: (i) Trigger composition은 layers 3–7에서 분산된 attention heads의 합성으로 p−1에 트리거 표현을 구축하고, (ii) latent propagation은 middle-late layers에서 signal이 dnat,ℓ 방향과 직교하는 서브스페이스로 이동하여 불투명하게 남아 있다가, (iii) Readout에서 MLP가 latent 트리거 신호를 French 로짓으로 변환한다. 3) Prior work 대비 차별점: 중간계층에서의 직교 잠재 encoding은 linear probes가 감지하지 못하는 인과적 신호를 제공하고, 회로는 단일 위치 병목으로 인해 다른 경로를 통한 중복 접근이 불가능하다는 점에서 회로적 분석의 새로운 사례를 제공한다. 4) 구현/학습 세부: activation patching은 LD를 프랑스어 vs 영어 로짓 차이로 측정하며, Gaussian vs neutral-word corrupt를 비교하여 회로의 구조적 주장들을 검증한다. 5) 이론적·실험적 한계: German trigger의 불안정성 및 단일 모델 크기 8B에서의 재현성 문제를 지적하며, 다른 규모의 모델에서의 일반화 여부를 추가로 탐구해야 한다.

한계점

German 트리거의 탐지 한계 및 단일 모델(8B)에서의 재현성 한계, 백도어의 구체적 유형이 다를 경우 회로 구조가 다를 수 있음.

실무 활용

백도어 회로의 구조가 p−1 위치를 중심으로 단일 위치 파이프라인으로 동작함을 밝힘으로써, 탐지 시스템이 중간 표현의 직교 잠재 인코딩을 포착하지 못하는 한계가 드러난다. 또한 트리거를 제거하려면 p−1의 활성화를 교란해야 하므로, 방어는 읽기단계의 의도된 동작에만 의존하지 않고 회로의 앞/중간 계층도 모니터링해야 한다.

백도어 방어 체계 설계 시 중간 계층의 직교 잠재 인코딩 가능성을 고려한 회로 기반 탐지 도구 개발
Activation patching 및 per-head causal decomposition을 활용한 모델 보안 평가 프로토콜 구축
Gaussian vs neutral-word corruption에 따른 방어 강건성 평가 및 기준선 확립
세부 시나리오에 대한 회로 해석 연구의 재현성 확보를 위한 벤치마크 설계

코드 공개 여부: 비공개

키워드

backdoorlanguage-switchingactivation patchinglinear probesorthogonal latent encodingserial bottleneckresidual stream