TL;DR
현대의 LLM은 backdoor 공격으로 인해 훈련 데이터에 삽입된 트리거에 반응해 악의적 출력을 야기할 수 있다. 기존의 반응 기반(reactive)·학습 중 개입(intraactive) 방어는 실전에서 일관되게 효과를 보이지 않는 경우가 많다. 본 연구는 training 데이터를 fine-tuning 이전에 안전한 프롬프트 공간으로 매핑하는 proactive 방어인 Open-Book Benign Rewriting(OBBR)을 제안하고, 4개의 LLM과 5개의 BA 패턴에서 SOTA 방어 대비 평균 ASR을 약 51% 감소시키고, Closed-Book 재작성 대비 26.8% 감소를 달성한다. 또한, PIAs에 대해서도 효과적으로 방어하며, 엔드-투-엔드 런타임 오버헤드가 기존 고비용 방어에 비해 작다.
왜 중요한가
현대의 LLM은 backdoor 공격으로 인해 훈련 데이터에 삽입된 트리거에 반응해 악의적 출력을 야기할 수 있다. 기존의 반응 기반(reactive)·학습 중 개입(intraactive) 방어는 실전에서 일관되게 효과를 보이지 않는 경우가 많다. 본 연구는 training 데이터를 fine-tuning 이전에 안전한 프롬프트 공간으로 매핑하는 proactive 방어인 Open-Book Benign Rewriting(OBBR)을 제안하고, 4개의 LLM과 5개의 BA 패턴에서 SOTA 방어 대비 평균 ASR을 약 51% 감소시키고, Closed-Book 재작성 대비 26.8% 감소를 달성한다. 또한, PIAs에 대해서도 효과적으로 방어하며, 엔드-투-엔드 런타임 오버헤드가 기존 고비용 방어에 비해 작다.
핵심 기여
이론적 보장: OBBR의 안전성 보장
Theorem 1은 c+ 하에서 p(ζ=B | c+) > p(ζ=B | c−)임을 보이고, Theorem 2는 xhat+가 B에 속할 확률이 xhat−가 B에 속할 확률보다 크다고 제시한다. 이를 통해 OBBR이 CBBR에 비해 더 높은 확률로 benign 출력을 유도함을 보장한다.
OBBR 알고리즘 설계
Algorithm 1은 각 학습 샘플 x에 대해 top-k 개의 benign 샘플을 Bref에서 검색하고, 시스템 프롬프트 s와 함께 컨텍스트 c+를 구성한 뒤 rewriter LLM_R에 인가해 xhat를 생성한다. xhat를 D̂에 추가하고 최종적으로 D̂를 fine-tuning 데이터로 사용한다.
실험적 성과: BA와 PIA 방어에서의 우수성
5가지 BA 패턴과 4대 LLM에 대해 OBBR의 평균 ASR은 30.7%로, SOTA BA defenses 대비 평균 51% 감소, Closed-Book 재작성 대비 26.8% 감소를 달성한다. PIAs에 대해서도 OBBR은 모든 모델에서 악의적 요청의 동조를 35% 미만으로 억제한다.
실용성: 런타임 및 다운스트림 성능 보존
OBBR은 벡터 DB 구성 포함 총 엔드-투-엔드 런타임이 약 6.48분으로, 베이스 모델의 4.68분 대비 증가폭이 있으며 CLEANGEN, CROW보다 비교적 큰 오버헤드를 보이지 않는다. 또한 LIMA 데이터셋의 7개 벤치마크에서 재작성은 평균적으로 패키지된 자료의 의미를 보존하고 일부 모델에서 성능이 개선된다.
PIA에 대한 강력한 방어 및 일반화
OBBR은 PIA 공격에 대해 평균적으로 47.1%의 안전성 향상을 보이고, CBBR 대비 대부분의 모델에서 악성 응답 비율을 크게 감소시킨다. 이는 트리거가 없는 포이즈닝 공격에도 효과적임을 시사한다.
핵심 아이디어 이해하기
출발점: BA(backdoor attacks)는 훈련 데이터의 트리거를 통해 모델이 특정 입력에서 악의적 출력을 내도록 설계된다. reactive/intraactive 방어는 훈련 후나 학습 중 개입에 의존하므로 포괄적 방어에 한계가 있다. 해결 원리: OB BR은 Retrieval-Augmented Generation(RAG)을 사용해 rewriter의 컨텍스트에 open-book benign 샘플을 추가로 주입한다. 이로써 rewriter는 benign 샘플의 구체적 예시를 바탕으로 더 안전한 출력으로 샘플을 재작성한다. 그 결과, 샘플의 posterior 분포에서 benign 가능성이 높아지며, 악성 트리거를 포함한 입력에서도 안전한 프롬프트로의 매핑이 강화된다. 효과 분석: Theorem 1은 c+에서 Benign 확률이 c−보다 크다는 것을 보장하고, Theorem 2는 open-book 재작성 xhat+가 더 자주 B에 속하는 것을 보장한다. 실험적으로 4개의 LLM과 5가지 BA에서 ASR이 크게 감소하고 PIAs에도 견고한 성능을 보인다. 더불어, 벡터 DB 검색과 재작성은 기존의 복잡한 파인튜닝/추론 변경에 비해 효율적이다.
방법론
전체 접근: proactive 재작성으로 BA/PIA를 미리 차단한다. 핵심 구성 요소는 rewriter LLM_R, benign 코퍼스 Bref, 임베딩 모델 𝜙, top-k 검색, 시스템 프롬프트 s, 그리고 재작성된 데이터세트 D̂이다. 절차: 1) 각 x에 대해 Retrieve_k(x, Bref)로 {b1, … , bk}를 얻고, 2) c+ = [s; b1; … ; bk; x]로 컨텍스트를 구성, 3) x̂ = LLM_R(c+)를 생성, 4) D̂ ← D̂ ∪ {x̂}, 5) D̂를 fine-tuning 데이터로 사용. 세부 구현은 all-MiniLM-L6-v2 임베딩, k=3, UltraFeedback 벤치마크에서 벤ign 샘플 검색, LangChain/ChromaDB를 활용한 벡터 DB 구성을 포함한다. LLM 재작성 모델은 mlabonne/NeuralDaredevil-8B-abliterated를 사용하고 greedy decoding을 적용한다. PIA 실험은 5,000샘플 데이터에 대해 StrongREJECT 평가를 사용한다. 벤ign 코퍼스 Bref는 UltraFeedback, 재작성은 Open-Book benign 컨셉으로 진행되며, 시스템 프롬프트는 안전 편집 역할에 맞춘 고정 프롬프트를 사용한다.
관련 Figure

이 도해는 OBBR의 정보 흐름을 직접 보여주며, Benign 코퍼스에서 Top-k 샘플을 검색해 컨텍스트를 구성하고, Rewriter가 이를 바탕으로 안전한 샘플로 재작성하는 과정을 연결한다. 시스템 프롬프트, Benign 샘플 검색, Rewriter, Safe Training Data의 흐름이 한 화면에 나타나므로 메서드의 핵심 흐름을 이해하는 데 유용하다.
OBBR 파이프라인 다이어그램: Training Data에서 Top-k Benign Samples를 검색하고 Rewriter LLM이 컨텍스트를 구성해 xhat를 생성하는 과정을 시각화
주요 결과
주요 벤치마크 결과: Table 1의 평균 ASR에서 OBBR은 30.7%로 가장 낮았고, CBBR은 40.2%, DPR은 42.9%, Paraphrase는 41.0%였다. 5가지 BA와 4개 모형에서 OBBR이 모든 경우에 다른 재작성 방법보다 우수했다. 런타임: Table 2에 따르면 None 대비 OBBR의 총 런타임은 6.48분으로, 4.68분 대비 증가했으나 CLEANGEN/DECODING/CROW보다 상대적으로 낮은 증가를 보였다(엔드-투-엔드 증가 약 38.5%). 교육 성능: Table 3의 7개 벤치마크에서 OBBR은 평균적으로 성능 저하 없이 유지되거나 소폭 개선됐다. 예를 들어 Qwen-2.5-7B에서 Mean Diff.가 -2.4로 개선 사례가 나타났고, 일부 모델은 0.00.8 범위의 변화를 보였다. PIAs 방어: Table 4에서 원래 모델 Pre-PIA 대비 OBBR은 Jailbreak ASR을 25.934.5%로 낮췄으며, PIA 후 강건성 측면에서도 평균적으로 큰 개선을 나타냈다. 전반적으로, OBBR은 BA/PIA에 대한 방어에서 SOTA 및 Closed-Book 대비 우월한 성능을 달성한다.
기술 상세
OBBR의 핵심 아이디어는 retrieval-augmented context를 재작성에 도입해 벤ign 샘플의 구체적 예시를 재작성 컨텍스트에 제공함으로써, 재작성된 샘플이 benign 공간에 더 가까워지도록 하는 점이다. 이때 Open-Book 벤인 컨텍스트 c+는 s(시스템 프롬프트) + {b1, … , bk}(top-k Benign) + x(원문 입력)으로 구성되며, x̂는 재작성 LLM_R에 의해 생성된다. 이로써 BA 패턴은 벤ign 공간으로 투영되고, fine-tuning 데이터 D̂의 트레이닝 샘플은 트리거에 덜 민감해진다. 이 구조는 CBBR 대비 posterior 확률 p(ζ=B | c+)가 더 크게 나오도록 보정한다. 또한 알고리즘 1은 모든 x에 대해 위 절차를 반복하여 D̂를 구성하고, D̂를 fine-tuning에 사용한다. 구현적으로 Bref로 UltraFeedback를 사용하고, 임베딩으로 all-MiniLM-L6-v2를 채택하며 top-k는 3으로 설정한다. 벡터 DB 구축은 ChromaDB, LangChain을 활용한다. 재작성 모델은 greedy decoding으로 동작하며, 시스템 프롬프트는 안전 편집 역할을 수행하도록 고정한다. Theorems 1/2는 OB BR의 안전성 보장을 이론적으로 뒷받침한다.
실무 활용
데이터 전처리 단계에 OBBR를 적용하면 fine-tuning 전에 샘플을 안전한 프롬프트 공간으로 매핑해 BA/PIA 공격에 대한 저항성을 높이고, 다운스트림 성능 손실을 최소화할 수 있다.
- 데이터 수집 파이프라인에서 BA 위험이 있는 코퍼스를 안전하게 정제
- 안전성 정렬(Safe Alignment) 데이터의 사전 필터링에 OBBR 적용
- PIA 취약점이 우려되는 도메인에서의 모델 학습 전처리
- 다양한 BA 패턴에 대한 방어 효율성 비교를 위한 재작성 기반 실험
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.