핵심 요약
AI 에이전트가 팀을 이루어 사용자의 일상(일정, 건강, 금융)을 관리하는 시대가 오고 있지만, 이들 간의 협력 과정에서 발생하는 개인정보 유출 위험은 간과되어 왔다. 이 논문은 에이전트 간 소셜 상호작용에서 발생하는 새로운 보안 취약점을 체계적으로 분석하고, 단순한 프롬프트 엔지니어링만으로는 해결할 수 없는 '추상화의 역설'을 발견하여 안전한 에이전트 시스템 구축을 위한 방향성을 제시한다.
왜 중요한가
AI 에이전트가 팀을 이루어 사용자의 일상(일정, 건강, 금융)을 관리하는 시대가 오고 있지만, 이들 간의 협력 과정에서 발생하는 개인정보 유출 위험은 간과되어 왔다. 이 논문은 에이전트 간 소셜 상호작용에서 발생하는 새로운 보안 취약점을 체계적으로 분석하고, 단순한 프롬프트 엔지니어링만으로는 해결할 수 없는 '추상화의 역설'을 발견하여 안전한 에이전트 시스템 구축을 위한 방향성을 제시한다.
핵심 기여
인간 중심 에이전트 소셜 네트워크(HCASN) 개념 정립 및 벤치마크 구축
사용자의 건강, 금융, 일정 등 6개 도메인의 민감 정보를 포함한 가상 프로필과 7가지 상호작용 시나리오를 포함하는 AGENTSOCIALBENCH를 제안함.
다층적 개인정보 보호 평가 지표 및 방어 메커니즘 설계
Privacy Leakage Rate(유출률), Information Abstraction Score(추상화 점수) 등 정밀한 지표와 도메인 경계 프롬프팅(DBP) 등 3단계 방어 계층을 도입함.
'추상화의 역설(Abstraction Paradox)' 현상 발견 및 분석
에이전트에게 정보를 추상화하여 전달하도록 교육하면, 원래 침묵했을 주제에 대해 언급하게 되어 오히려 부분적 유출(Partial Leakage)이 증가하는 현상을 확인했음.
핵심 아이디어 이해하기
기존의 LLM 보안 연구는 주로 단일 에이전트가 악의적인 공격자로부터 개인 식별 정보(PII)를 지키는 데 집중했다. 하지만 실제 환경에서는 여러 에이전트가 사용자의 일정, 건강, 업무 등 서로 다른 도메인을 맡아 협력해야 하며, 이 과정에서 '협력을 위한 정보 공유'와 '개인정보 보호' 사이의 충돌이 발생한다. 예를 들어, 건강 에이전트가 식사 예약 에이전트에게 사용자의 질병명을 숨기면서도 특정 식단 제한 사항은 전달해야 하는 복잡한 경계 관리가 필요하다. 이 논문은 이러한 다중 에이전트 환경을 '인간 중심 에이전트 소셜 네트워크'로 정의하고, 에이전트가 정보를 전달할 때 원본 데이터를 그대로 노출하는 대신 의미는 유지하되 민감도는 낮추는 '추상화(Abstraction)' 기법을 핵심 해결책으로 검토한다. 이는 임베딩 공간에서 정보의 밀도를 조절하거나 텍스트 수준에서 구체적인 명칭을 일반적인 범주로 치환하는 것과 유사한 원리다. 실험 결과, 에이전트에게 암 진단명을 건강상의 이유로 바꿔 말하라는 식의 구체적인 추상화 템플릿을 제공하면, 에이전트는 해당 주제가 대화에 불필요한 상황에서도 허용된 표현이 있다는 사실에 안도하여 오히려 관련 언급을 시작하게 된다. 결과적으로 완전한 유출은 줄어들지만, 아무 말도 안 했을 때보다 더 많은 정보가 노출되는 추상화의 역설이 발생하며, 이는 단순한 프롬프트 최적화 이상의 아키텍처적 접근이 필요함을 시사한다.
방법론
AGENTSOCIALBENCH는 건강, 금융, 소셜 등 6개 도메인에 걸쳐 민감도가 1에서 5점으로 라벨링된 가상 사용자 프로필을 생성한다. 각 시나리오는 도메인 간 협력, 인간-에이전트 중재, 사용자 간 협력 등 7가지 소셜 토폴로지를 기반으로 설계됐다. 에이전트의 방어 수준을 세 단계로 구분하여 평가하며, 최상위 단계인 L2에서는 도메인 경계 프롬프팅(DBP), 정보 추상화 템플릿(IAT), 최소 정보 원칙(MIP)을 결합한다. 사용자 프로필과 작업 목표를 입력으로 받아 MIP 체크리스트를 통해 공유 필요성을 판단하고 IAT로 민감 정보를 치환하는 연산을 수행하여 최종 메시지를 생성하며, 이 메시지가 작업 효율과 정보 보호를 동시에 달성하는지 평가한다. 평가는 LLM-as-a-judge 방식을 사용하며, Claude 4.6 등을 평가자로 활용한다. 평가자는 대화 이력과 개인정보 경계 설정을 입력으로 받아 각 문장이 민감 정보를 추론 가능하게 하는지 비교 연산하여 0에서 1 사이의 유출률 숫자를 도출하며, 이 숫자가 낮을수록 보안성이 높음을 의미한다.
주요 결과
8개의 주요 LLM을 대상으로 실험한 결과, 도메인 간 협력 상황에서 유출 압력이 가장 높게 나타났다. 특히 건강 정보를 소셜 도메인으로 전달할 때 유출률이 다른 카테고리 대비 약 2에서 3배 높았다. 방어 기법을 적용했을 때 모든 모델에서 심각한 정보 노출은 77%에서 93% 감소했으나, 부분적 유출은 오히려 증가하는 경향을 보였다. 이는 에이전트가 제공된 추상화 템플릿을 사용하여 원래는 침묵했을 주제를 언급하기 시작했기 때문이다. 작업 완료 품질 측면에서는 Claude Sonnet 4.6이 가장 우수한 성능을 보였으나 유출률이 가장 낮은 모델은 아니었다. GPT-5 Mini는 특정 도메인에서 낮은 유출률을 기록했으나 작업 완수 능력은 상대적으로 낮아, 보안과 유틸리티 사이의 상충 관계가 뚜렷하게 관찰됐다.
기술 상세
본 연구는 맥락적 무결성 이론을 바탕으로 에이전트 소셜 네트워크에서의 개인정보 유출을 정의한다. 정보의 흐름이 해당 사회적 맥락의 규범을 위반할 때 유출로 간주하며, 이를 도메인 경계, 사용자 경계, 중재 경계, 친밀도 기반 경계의 네 가지 제약 조건으로 구체화했다. 에이전트 아키텍처는 도메인 특화 에이전트들이 팀을 이루는 구조다. 각 에이전트는 사용자의 전체 프로필 중 자신의 도메인에 해당하는 부분 집합만 보유하며, 타 도메인 에이전트와 협력할 때만 정보를 교환한다. 이는 권한 분리 원칙을 멀티 에이전트 시스템에 적용한 것이다. 추상화의 역설에 대한 통계적 분석을 위해 부트스트랩 방법론을 사용하여 95% 신뢰 구간을 계산했다. 방어 없음과 전체 방어 상태에서의 행동 변화를 비교한 결과, 방어 지침이 에이전트의 침묵 전략을 추상적 언급 전략으로 대체시키며 정보 노출 면적을 넓히는 인과 관계를 확인했다.
한계점
본 연구는 단일 세션에서의 상호작용만을 다루고 있어, 여러 세션에 걸쳐 정보가 누적되어 발생하는 장기적인 개인정보 유출 위험은 평가하지 못했다. 또한 에이전트의 자율적인 행동 외에 외부 공격자의 의도적인 공격 시나리오는 포함되지 않았다.
실무 활용
멀티 에이전트 기반의 개인 비서 서비스나 기업용 협업 봇 시스템을 설계할 때, 단순한 프롬프트 지침만으로는 개인정보를 완벽히 보호할 수 없음을 시사한다. 개발자는 에이전트가 정보를 '어떻게 바꿀지' 가르치기보다, '언제 침묵할지'에 대한 엄격한 필터링 로직을 아키텍처 수준에서 구현해야 한다.
- 사용자의 건강 상태를 고려하여 식단을 추천하는 개인 비서 에이전트 팀 구축
- 여러 후보자의 연봉 협상을 중재하는 HR 자동화 에이전트 설계
- 가족 구성원 간의 일정을 조정하며 민감한 개인 사정을 보호해야 하는 소셜 앱 개발
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.