핵심 요약
최신 LLM들이 과거 시제로 질문을 바꾸는 간단한 변형만으로도 안전 가이드라인이 무력화되는 취약점을 해결한다. 모델의 전체 성능을 떨어뜨리지 않으면서도 특정 보안 구멍만 정밀하게 수리하는 기계론적 접근법을 제시한다.
왜 중요한가
최신 LLM들이 과거 시제로 질문을 바꾸는 간단한 변형만으로도 안전 가이드라인이 무력화되는 취약점을 해결한다. 모델의 전체 성능을 떨어뜨리지 않으면서도 특정 보안 구멍만 정밀하게 수리하는 기계론적 접근법을 제시한다.
핵심 기여
탈옥 취약점 유발 Attention Head 식별
회로 분석 기법을 사용하여 과거 시제 기반의 탈옥 공격이 성공할 때만 활성화되는 특정 Attention Head들을 인과적으로 검증하고 목록화했다.
ASGUARD 프레임워크 제안
취약한 헤드를 식별하고, 해당 헤드의 출력을 조절하는 스케일링 벡터를 학습시킨 후, 이를 활용해 모델을 정밀하게 튜닝하는 3단계 방어 체계를 구축했다.
예방적 파인튜닝 기법 도입
스케일링 벡터를 일시적으로 적용한 상태에서 모델이 스스로 견고한 거절 메커니즘을 학습하도록 유도하는 Preventative Fine-Tuning 방식을 개발했다.
안전성과 유용성의 파레토 최적 달성
Llama-3.1 등 4개 주요 모델에서 일반적인 성능 저하나 과도한 거절 반응 없이 탈옥 공격 성공률을 획기적으로 낮추는 데 성공했다.
핵심 아이디어 이해하기
LLM의 안전 정렬은 특정 유해 단어에는 민감하지만, 문장의 시제 변화와 같은 언어적 변형이 일어날 때 이를 유해한 의도로 일반화하지 못하는 한계가 있다. 이는 모델 내부에서 '유해성 판단'과 '거절 생성'이 별개의 회로로 작동하며, 시제 정보가 거절 회로의 활성화를 방해하기 때문에 발생한다.
ASGUARD는 이 문제를 해결하기 위해 모델 내부의 특정 Attention Head가 시제 정보를 처리하는 방식에 주목한다. Transformer의 Attention Head 중 일부가 과거 시제를 감지하면 이를 '역사적 사실 문의'로 오인하여 거절 회로를 우회시키는 신호를 보낸다는 점을 발견했다.
이 논문은 해당 취약 헤드의 출력 채널에 미세한 가중치(스케일링 벡터)를 곱해 유해한 경로를 억제한다. 이는 뇌의 특정 부위에 정밀한 전기 자극을 주어 잘못된 신호 전달을 막는 것과 유사한 원리로, 모델의 다른 지식이나 언어 능력은 그대로 유지하면서 보안 취약점만 선택적으로 수리한다.
방법론
ASGUARD는 세 단계로 구성된다. 첫 번째 단계는 EAP-IG(Edge Attribution Patching with Integrated Gradients)를 이용한 회로 분석이다. 탈옥에 성공한 케이스와 실패한 케이스의 활성화 차이를 분석하여, 과거 시제 공격 시 거절 메커니즘을 방해하는 특정 Attention Head들을 찾아낸다.
두 번째 단계는 'Identify-then-Scale' 프로토콜이다. 식별된 취약 헤드의 출력 Hl,j에 학습 가능한 채널별 스케일링 벡터 sj를 Hadamard product(원소별 곱) 연산한다. [입력 텐서 Hl,j와 벡터 sj를 곱하여 → 각 채널의 강도가 조절된 H'l,j를 얻고 → 이를 통해 유해한 정보 흐름을 억제하는 수치를 도출한다]. 이 벡터는 고정된 모델 가중치 θ를 유지한 채 크로스 엔트로피 손실을 최소화하는 방향으로 학습된다.
세 번째 단계는 Preventative Fine-Tuning이다. 학습된 스케일링 벡터를 모델에 부착한 상태에서 거절 데이터셋으로 파인튜닝을 진행한다. [스케일링된 활성화를 입력으로 받아 → 모델 파라미터 θ'를 갱신하여 → 벡터 없이도 스스로 유해 요청을 거절하도록 학습시킨다]. 학습이 끝나면 벡터를 제거하여 추론 비용 증가 없이 견고해진 모델만 남긴다.
관련 Figure

취약 헤드 식별, 스케일링 벡터 학습, 예방적 파인튜닝으로 이어지는 워크플로우를 시각화한다. 특히 벡터를 부착했다가 학습 후 떼어내는 과정이 모델 성능 유지의 핵심임을 보여준다.
ASGUARD의 전체적인 3단계 프로세스를 보여주는 다이어그램
주요 결과
Llama-3.1-8B-Instruct 모델에서 과거 시제 탈옥 공격 성공률(ASR)을 기존 42%에서 8%로 대폭 낮췄다. 이는 단순 파인튜닝(SFT)이나 DPO 방식이 21~38%의 ASR을 기록한 것보다 훨씬 강력한 방어 성능이다. 또한 GCG 공격에 대해서도 ASR을 15%에서 1%로, LogiBreak 공격은 30%에서 13%로 감소시켜 범용적인 방어 효과를 입증했다.
모델의 일반 지능을 측정하는 MMLU 점수는 68.2점을 유지하여 성능 저하가 거의 없었으며, 무해한 질문까지 거절하는 과도한 거절(Over-refusal) 현상도 기존 방식들보다 현저히 낮게 나타났다. 결과적으로 안전성과 유용성 사이의 파레토 프런티어에서 가장 우수한 지점에 위치함을 확인했다.
관련 Figure

ASGUARD가 모든 모델에서 기존 방식(SFT, DPO 등)보다 우측 상단에 위치하여, 안전성을 높이면서도 모델의 견고함을 가장 잘 유지하고 있음을 증명한다.
4개 모델에 대한 안전성(ASR 감소)과 유용성(R-Score)의 파레토 최적 곡선
기술 상세
ASGUARD는 모델의 안전 기능이 소수의 특정 Attention Head에 국한되어 있다는 '로컬리티(Locality)' 가설에 기반한다. 연구진은 회로 분석을 통해 식별된 헤드들이 실제로 시제 정보를 인코딩하고 있음을 선형 프로브(Linear Probe) 분석으로 검증했다. 특정 헤드(예: Llama3.1의 L13H25)는 과거와 현재 시제를 구분하는 정확도가 76%에 달했다.
학습 과정에서 사용된 스케일링 벡터는 LoRA보다도 훨씬 적은 파라미터를 사용하면서도 더 정밀한 제어가 가능하다. 특히 Preventative Fine-Tuning 단계에서는 스케일링 벡터가 일종의 '보조 바퀴' 역할을 하여, 모델이 취약한 경로를 사용하지 않고도 올바른 거절 답변을 생성하는 대안 경로를 찾도록 유도한다. 이는 모델이 단순히 특정 단어를 거절하는 휴리스틱을 배우는 것이 아니라, 내부적인 표현 구조 자체를 더 안전하게 재구성하게 만든다.
관련 Figure

식별된 헤드들이 실제로 과거와 현재 시제를 명확히 구분하는 정보를 담고 있음을 통계적으로 보여주며, ASGUARD 적용 후 이 구분 능력이 더욱 정교해짐을 나타낸다.
특정 Attention Head의 시제 분류 정확도 및 활성화 분포 분석
한계점
본 방법론의 효과는 국소화 가능한 인과 회로를 정확히 찾아낼 수 있는지에 크게 의존한다. 또한 더 복잡하고 합성적인 표현을 사용하는 공격에 대해서는 추가적인 연구가 필요하며, MoE(Mixture of Experts) 아키텍처나 증류(Distillation)된 모델과 같이 내부 연산이 더 복잡하게 얽힌 경우에는 적용이 어려울 수 있다.
실무 활용
LLM 서비스 운영 시 특정 언어적 패턴을 악용한 보안 취약점이 발견되었을 때, 모델 전체를 다시 학습시키지 않고도 정밀하게 패치할 수 있는 실무적 도구로 활용 가능하다.
- 특정 시제나 문법적 변형을 이용한 보안 우회 공격에 대한 긴급 패치
- 모델의 일반 성능 하락 없이 특정 도메인(예: 의료, 법률)의 안전 가이드라인 강화
- 추론 비용 추가 없이 모델 내부 회로 교정을 통한 경량화된 안전 장치 구축
코드 공개 여부: 공개
코드 저장소 보기키워드
코드 예제
H'l,j = Hl,j ⊙ sj특정 Attention Head의 출력에 채널별 스케일링 벡터를 적용하는 연산식
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.