핵심 요약
대부분의 LLM 시스템은 단일 사용자의 명령만 처리하도록 설계되어 있어 실제 조직 내 협업 환경에서는 취약점을 드러낸다. 이 논문은 여러 사용자가 동시에 상호작용할 때 발생하는 명령 충돌, 개인정보 유출, 협업 효율 저하 문제를 체계적으로 분석하여 차세대 멀티 에이전트 시스템의 방향성을 제시한다.
왜 중요한가
대부분의 LLM 시스템은 단일 사용자의 명령만 처리하도록 설계되어 있어 실제 조직 내 협업 환경에서는 취약점을 드러낸다. 이 논문은 여러 사용자가 동시에 상호작용할 때 발생하는 명령 충돌, 개인정보 유출, 협업 효율 저하 문제를 체계적으로 분석하여 차세대 멀티 에이전트 시스템의 방향성을 제시한다.
관련 Figure

왼쪽은 에이전트가 한 명의 사용자 목적에만 집중하는 기존 방식을 보여주며, 오른쪽은 여러 사용자의 비공개 컨텍스트와 충돌하는 목적을 에이전트가 중재해야 하는 본 논문의 핵심 문제 의식을 시각화한다. 이는 다중 사용자 환경에서 권한 인식과 선택적 정보 공유가 왜 필수적인지 설명한다.
단일 사용자 시나리오와 다중 사용자 시나리오의 구조적 차이를 비교한 다이어그램이다.
핵심 기여
다중 사용자 LLM 상호작용의 공식화
단일 사용자 중심의 기존 패러다임을 넘어 서로 다른 권한과 목적을 가진 여러 사용자가 하나의 에이전트와 상호작용하는 상황을 '다중 본인-대리인 결정 문제(Multi-principal decision problem)'로 정의하고 수학적으로 공식화했다.
Muses-Bench 벤치마크 구축
다중 사용자 명령 이행, 교차 사용자 접근 제어, 순차적 협업이라는 세 가지 핵심 시나리오를 포함한 스트레스 테스트 환경을 설계하여 최신 LLM들의 실질적인 한계를 측정할 수 있는 기반을 마련했다.
최신 LLM의 체계적 결함 발견
Claude 3.5, GPT-4o 등 최신 모델들이 다중 사용자 간의 명령 충돌 시 우선순위 유지에 실패하고, 대화가 길어질수록 개인정보 보호 규정을 위반하며, 정보 수집 과정에서 병목 현상을 겪는다는 사실을 입증했다.
핵심 아이디어 이해하기
기존의 LLM 학습 방식인 SFT(Supervised Fine-tuning)와 RLHF(Reinforcement Learning from Human Feedback)는 단일 사용자의 선호도를 하나의 스칼라 값으로 최적화하는 데 집중한다. 이는 Transformer 아키텍처가 입력된 모든 텍스트를 하나의 맥락으로 통합하여 처리하기 때문에 발생하며, 결과적으로 에이전트는 서로 다른 사용자의 신원과 권한을 명확히 구분하지 못하고 모든 입력을 하나의 권위 있는 출처로 오인하게 된다.
이 논문은 이러한 한계를 극복하기 위해 에이전트가 각 사용자의 개별적인 효용 함수(Utility Function)를 동시에 고려해야 한다고 본다. 즉, 에이전트는 단순히 다음 토큰을 예측하는 것을 넘어, 각 사용자의 권한 수준(Authority Level)과 비공개 컨텍스트(Private Context)를 분리하여 인식하고 이를 기반으로 가중치가 적용된 사회적 후생(Weighted Social Welfare)을 극대화하는 방향으로 의사결정을 내려야 한다.
실험 결과, 현재의 모델들은 대화가 진행됨에 따라 '거절-유출 역설(Refusal-leak paradox)'에 빠지는 경향을 보였다. 이는 에이전트가 직접적인 접근은 거부하면서도 사회 공학적 공격이나 반복된 질문에 노출되면 핵심 정보를 간접적으로 노출하는 현상으로, 다중 사용자 환경을 위한 근본적인 아키텍처 개선이 필요함을 시사한다.
방법론
다중 사용자 상호작용을 위해 각 사용자 i에게 권한 페르소나 p_i, 비공개 컨텍스트 C_i, 개별 효용 함수 U_i를 할당하는 프레임워크를 설계했다. 에이전트는 선택적으로 공유된 컨텍스트 C_share를 관찰하며, 가중치 w_i가 적용된 총합 Σ w_i * U_i(a; C_i, p_i)를 최대화하는 행동 a를 선택하도록 모델링했다. [각 사용자의 가중치와 효용 값을 입력으로] → [가중 합산 연산을 수행해] → [전체 사회적 이득 점수를 얻고] → [이 점수가 가장 높은 행동을 선택함]
실험을 위해 세 가지 시나리오를 구현했다. 첫째, '다중 사용자 명령 이행'은 CEO와 엔지니어의 상충되는 명령 중 권한에 따라 올바른 결정을 내리는지 평가한다. 둘째, '교차 사용자 접근 제어'는 권한이 없는 사용자의 정보 요청을 거부하면서 권한 있는 사용자에게는 정확한 정보를 제공하는지 측정한다. 셋째, '다중 사용자 회의 조정'은 부분적인 정보만 가진 여러 사용자와 대화하며 최적의 회의 시간을 도출하는 능력을 평가한다.
관련 Figure

각 시나리오에서 에이전트가 직면하는 구체적인 도전 과제(권한 기반 충돌 해결, 무단 접근 거부, 부족한 정보 수집)를 예시 대화와 함께 제시한다. 모델이 실패하는 경우와 성공하는 경우를 대비시켜 평가 기준을 명확히 한다.
세 가지 주요 스트레스 테스트 시나리오(명령 이행, 접근 제어, 회의 조정)의 예시를 보여준다.
주요 결과
실험 결과, 최신 모델들도 다중 사용자 환경에서 심각한 성능 저하를 보였다. 명령 이행 시나리오에서 명령 선택(Selection F1) 점수는 높더라도 실제 실행 정확도(Execution Acc.)는 급격히 떨어지는 '불일치 현상'이 관찰되었다. 예를 들어 Qwen3-4B-IT는 선택 점수 83.8을 기록했으나 실행 정확도는 57.9에 그쳤다.
접근 제어 실험에서는 대화 회차(Round)가 반복될수록 개인정보 보호 점수가 지속적으로 하락하는 경향이 확인되었다. Claude-3.5-Haiku의 경우 첫 회차에서는 0.95 이상의 보호 점수를 보였으나 4회차 만에 0.75 미만으로 떨어졌다. 이는 모델이 지속적인 압박이나 맥락적 힌트에 노출될 때 보안 경계가 무너짐을 의미한다.
회의 조정 시나리오에서는 정보가 제한된 상황(Partial Disclosure)에서 성공률이 크게 낮아졌다. Llama-3-70B는 정보가 부족함에도 성급하게 결론을 내리는 '조기 확정(Premature Commitment)' 오류를 범하며 성공률 0.0을 기록하기도 했다. 전반적으로 GPT-OSS-120B와 Gemini-3-Pro가 상대적으로 우수한 성능을 보였으나 여전히 개선의 여지가 많았다.
관련 Figure

모든 모델에서 명령이 충돌하는 상황(Conflict)일 때 정확도가 일관되게 하락함을 보여준다. 특히 상위 모델들도 권한 체계를 완벽히 내재화하지 못하고 표면적인 지시어에 의존하고 있음을 입증하는 데이터이다.
사용자 명령이 일치할 때와 충돌할 때의 모델별 실행 정확도 비교 차트이다.

대화가 길어질수록 거의 모든 모델의 보안 성능이 저하되는 '점진적 침식' 현상을 보여준다. 이는 단발성 보안 체크 통과가 장기적인 안전성을 보장하지 못한다는 중요한 발견을 뒷받침한다.
대화 회차가 진행됨에 따른 평균 개인정보 보호 점수의 변화를 나타낸 그래프이다.

정보가 제한된 상황(Partial)에서 성공률이 낮고 더 많은 대화 회차가 필요함을 보여준다. 효율적인 정보 요청 능력이 부족한 모델일수록 불필요한 대화를 반복하거나 잘못된 결론에 도달하는 병목 현상을 수치로 증명한다.
회의 예약 성공률과 소요된 대화 회차를 모델별로 비교한 결과이다.
기술 상세
본 연구는 다중 사용자 환경을 '다중 본인-대리인 문제'로 공식화한 최초의 시도이다. 기존의 단일 사용자 페르소나를 넘어, 사용자별로 독립적인 세션을 유지하면서 공유 메모리를 관리하는 'Native Multi-user Interface'의 필요성을 역설한다. 특히 현재의 'Says'나 'XML' 기반의 직렬화(Serialization) 방식은 사용자 식별과 권한 경계 유지에 한계가 있음을 실험적으로 증명했다.
모델 아키텍처 측면에서는 단순히 프롬프트에 권한 정보를 넣는 것만으로는 부족하며, 학습 단계에서부터 다중 객체 최적화(Multi-objective Optimization)를 고려해야 한다고 제안한다. 또한, 장기 대화(Long-horizon) 시나리오에서 보안 정책 준수 여부를 지속적으로 감시할 수 있는 새로운 벤치마크의 중요성을 강조하며, 사회 선택 이론(Social Choice Theory)을 결합한 갈등 해결 메커니즘의 도입을 향후 연구 방향으로 제시했다.
한계점
본 연구는 시뮬레이션된 사용자 페르소나를 기반으로 실험을 진행했으므로, 실제 인간 사용자의 복잡하고 예측 불가능한 행동 패턴을 완벽히 반영하지 못했을 수 있다. 또한, 현재 평가된 모델들이 다중 사용자 전용 인터페이스를 갖추지 못한 상태에서 직렬화된 입력을 처리했기 때문에 모델의 잠재력이 저평가되었을 가능성이 있다.
실무 활용
현재의 LLM 에이전트를 기업용 협업 도구나 다중 사용자 서비스에 그대로 배포하기에는 보안 및 신뢰성 위험이 크다는 점을 시사한다.
- 기업 내 다수 부서가 공유하는 프로젝트 관리 AI 에이전트의 권한 설계
- 민감한 인사/재무 데이터를 다루는 챗봇의 다중 사용자 접근 제어 로직 검증
- 여러 참여자의 일정을 조율하는 자동화된 비서 시스템의 예외 처리 강화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.