핵심 요약
기존의 LLM 보안 방식은 단순히 답변을 거부하거나 필터링하는 수동적인 방식에 그쳐 공격자가 전략을 바꾸면 쉽게 무력화되는 한계가 있다. 이 논문은 공격자의 의도와 지식 상태를 추론하는 ToM(Theory of Mind) 능력을 활용해, 공격자가 정보를 얻었다고 믿게 만들면서 실제로는 가짜 정보를 제공하는 능동적인 이중 에이전트 방어 체계를 제안한다.
왜 중요한가
기존의 LLM 보안 방식은 단순히 답변을 거부하거나 필터링하는 수동적인 방식에 그쳐 공격자가 전략을 바꾸면 쉽게 무력화되는 한계가 있다. 이 논문은 공격자의 의도와 지식 상태를 추론하는 ToM(Theory of Mind) 능력을 활용해, 공격자가 정보를 얻었다고 믿게 만들면서 실제로는 가짜 정보를 제공하는 능동적인 이중 에이전트 방어 체계를 제안한다.
핵심 기여
TOM-SB 벤치마크 구축
공격자가 대상에 대한 부분적인 사전 지식을 가진 상태에서 다회차 대화를 통해 민감 정보를 탈취하려는 시나리오를 시뮬레이션하는 300개의 계층적 구조 데이터셋을 구축했다.
AI DOUBLE AGENTS 프레임워크 제안
공격자의 신념 상태를 모델링하고 이를 바탕으로 일관성 있는 거짓 정보를 제공하여 공격자를 속이는 능동적 방어 에이전트를 개발했다.
ToM과 기만 성공률 사이의 상호 보완적 관계 입증
강화학습 과정에서 상대를 속이는 보상(Fooling reward)만 주어도 마음 이론(ToM) 능력이 향상되고, 반대로 ToM 보상만 주어도 속이기 성능이 향상되는 양방향 창발 현상을 확인했다.
최신 프론티어 모델 대비 우수한 방어 성능 달성
RL로 학습된 AI DOUBLE AGENTS는 Gemini 3 Pro나 GPT-5.4와 같은 강력한 모델들보다 어려운 시나리오에서 공격자를 속이는 성공률이 유의미하게 높았다.
핵심 아이디어 이해하기
기존의 LLM 방어는 공격자의 질문에 대해 단순히 '답할 수 없다'고 거절하거나 단발적인 거짓말을 하는 수준에 머물러 있다. 이는 공격자가 방어 기제의 존재를 즉시 눈치채고 더 정교한 우회 공격을 시도하게 만드는 원인이 된다. 본 연구는 인간이 사회적 상호작용에서 사용하는 '마음 이론(Theory of Mind)' 개념을 도입하여, 방어자가 공격자가 무엇을 알고 있고 무엇을 믿고 싶은지를 실시간으로 추론하도록 설계했다.
동작 원리는 방어자가 대화 과정에서 공격자의 사전 지식을 파악하기 위한 탐색 질문을 던지고, 이를 바탕으로 공격자의 신념 상태를 임베딩 공간에서 추적하는 방식이다. 공격자가 이미 알고 있는 사실과 모순되지 않는 정교한 가짜 정보를 생성하여, 공격자가 자신의 공격이 성공했다고 믿게 만드는 '이중 에이전트' 전략을 취한다.
결과적으로 방어자는 공격자의 신뢰를 유지하면서도 핵심 정보 유출을 차단할 수 있다. 실험 결과, 이러한 전략적 기만 능력은 단순히 프롬프트 엔지니어링만으로는 도달하기 어려우며, 공격자의 신념을 정확히 맞추는 ToM 정확도와 기만 성공률이 강하게 결합되어야만 가능하다는 점을 보여주었다.
방법론
TOM-SB(ToM for Steering Beliefs) 환경은 기업 조직도와 같은 계층적 트리 구조를 기반으로 설계되었다. 공격자는 특정 타겟의 소속 부서 등 일부 정보만 알고 시작하며, 방어자는 타겟의 실제 전체 경로를 보호해야 한다. 대화는 최대 29회차까지 이어질 수 있으며, 공격자는 방어자를 탐지하거나 공격 성공을 선언할 때까지 질문을 지속한다.
방어자 모델인 AI DOUBLE AGENTS는 Dr. GRPO(Group Relative Policy Optimization) 알고리즘을 사용하여 학습된다. 보상 함수는 두 가지 요소로 구성된다. 첫째, 기만 보상(R_fool)은 공격자가 공격 성공을 선언했으나 실제로는 틀린 정보를 믿고 있을 때 1을 부여한다. [공격자의 최종 신념 ≠ 실제 정답 → 보상 1 생성 → 기만 성공 의미] 둘째, ToM 보상(R_ToM)은 방어자가 추론한 공격자의 사전 지식 상태가 실제 공격자의 상태와 일치할 때 부여한다. [방어자의 ToM 추론값 == 공격자의 실제 지식 → 보상 1 생성 → 상대방 이해도 측정]
학습 과정에서 모델은 내부 성찰(Internal Reflection) 단계를 거친다. 각 턴마다 모델은 '공격자가 현재 무엇을 알고 있는가'와 '공격자가 나를 얼마나 신뢰하는가'를 먼저 텍스트로 생성한 뒤, 이 정보를 바탕으로 최종 답변을 출력한다. 이러한 구조는 모델이 명시적으로 상대방의 상태를 모델링하도록 강제하며, 이는 강화학습의 정책 결정에 핵심적인 피처로 작용한다.
주요 결과
실험 결과, Qwen3-14B 기반의 AI DOUBLE AGENTS는 어려운 시나리오(공격자가 사전 지식을 가진 경우)에서 42.4%의 기만 성공률을 기록하여, Gemini 3 Pro(34.4%)와 GPT-5.4(26.7%)의 프롬프트 기반 성능을 앞질렀다. 특히 단순 프롬프트 방식은 공격자가 사전 지식을 가지고 있을 때 방어자의 모순을 쉽게 찾아내어 신뢰도가 급격히 하락하는 모습을 보였다.
ToM 능력과 기만 성능 사이에는 평균 0.92의 매우 높은 피어슨 상관관계가 관찰되었다. 이는 상대방의 신념을 정확히 모델링하는 능력이 정교한 기만을 수행하기 위한 필수 전제 조건임을 시사한다. 또한, 기만 보상만으로 학습한 모델도 ToM 능력이 13%에서 35%로 향상되는 '창발적 ToM' 현상이 확인되었다.
OOD(Out-of-Distribution) 평가를 위해 더 강력한 공격자(Cross-Examiner, Bluffing Attacker 등)를 투입했을 때도, AI DOUBLE AGENTS는 프론티어 모델들보다 성능 하락 폭이 적었으며 더 견고한 방어 능력을 유지했다. 이는 제안된 학습 방식이 특정 공격 패턴에 고착되지 않고 일반적인 신념 유도 전략을 습득했음을 보여준다.
기술 상세
AI DOUBLE AGENTS는 계층적 유니버스 내에서 공격자의 신념을 특정 노드에 고정시키거나 엉뚱한 경로로 유도하는 'Belief Steering'을 핵심 메커니즘으로 한다. 아키텍처적으로는 각 턴마다 [ToM 추론 -> 신뢰도 평가 -> 전략 수립 -> 답변 생성]의 파이프라인을 따르며, 이를 JSON 구조로 출력하여 정량적 평가가 가능하게 했다.
학습에 사용된 Dr. GRPO는 표준 편차 기반의 보상 정규화를 제거하고 최대 길이 정규화를 적용하여 학습의 안정성을 높인 GRPO의 변형이다. 이는 긴 호흡의 대화(Long-horizon dialogue)에서 발생할 수 있는 보상 편향을 줄이는 데 효과적이다. 또한, Trajectory-level 보상을 통해 대화 전체의 성공 여부를 평가함으로써, 단기적인 답변 품질보다 장기적인 기만 전략의 성공에 최적화되도록 유도했다.
한계점
본 연구는 방어자와 공격자가 공유하는 '계층적 유니버스'라는 폐쇄된 환경을 가정하고 있어, 현실 세계의 비정형적이고 무한한 정보 공간에서의 성능은 검증되지 않았다. 또한, 방어자가 의도적으로 거짓 정보를 생성하도록 학습시키는 방식이 모델의 일반적인 정직성(Honesty)이나 정렬(Alignment)에 미칠 수 있는 부작용에 대한 심층적인 분석이 부족하다.
실무 활용
민감한 정보를 다루는 기업용 대화형 AI 시스템에서 공격적인 정보 탈취 시도를 능동적으로 방어하는 데 활용될 수 있다.
- 고객 지원 봇에서 사회 공학적 해킹(Social Engineering) 시도를 감지하고 가짜 정보를 제공하여 공격자 유인
- 내부 기밀 정보에 접근하려는 권한 없는 사용자를 대상으로 한 허니팟(Honeypot) 시스템 구축
- 멀티 에이전트 시스템 간의 협상 과정에서 전략적 정보 노출 제어 및 신념 유도
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.