선제적 에이전트 연구 환경: 선제적 어시스턴트 평가를 위한 능동적 사용자 시뮬레이션

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 AI 에이전트는 사용자의 명시적 명령에만 반응하는 수동적 구조였으나, 이 연구는 사용자의 행동을 관찰하고 필요를 예측해 먼저 제안하는 '선제적' 에이전트 평가를 위한 표준을 제시한다. 실제 모바일 앱 사용 환경을 유한 상태 기계로 모델링하여 AI가 복잡한 화면 이동을 거치는 실제 사용자와 상호작용하며 얼마나 유용한 도움을 줄 수 있는지 객관적으로 측정 가능하다.

왜 중요한가

핵심 기여

PARE 프레임워크 개발

사용자가 앱 화면을 직접 탐색하는 과정을 유한 상태 기계(FSM)로 모델링하여, 에이전트가 사용자의 행동 맥락을 실시간으로 관찰하고 개입할 수 있는 비대칭 시뮬레이션 환경을 구축했다.

PARE-Bench 벤치마크 구축

통신, 생산성, 일정 관리 등 4개 도메인에 걸쳐 143개의 다양한 시나리오를 포함하는 벤치마크를 제작하여 에이전트의 목표 추론 및 개입 타이밍 능력을 정밀하게 측정한다.

Observe-Execute 아키텍처 제안

지속적인 모니터링을 담당하는 '관찰' 모드와 실제 작업을 수행하는 '실행' 모드를 분리하여 사용자의 자율성을 보존하면서 효율적으로 보조하는 구조를 설계했다.

최신 LLM 성능 분석

Claude 4.5 Sonnet, GPT-5 등 7종의 모델을 평가하여 현재 기술 수준에서 선제적 에이전트의 성공률이 약 42% 수준임을 확인하고 소형 모델의 실행 병목 현상을 규명했다.

핵심 아이디어 이해하기

기존의 AI 에이전트 평가는 사용자가 명시적으로 명령을 내리면 AI가 API를 호출해 결과를 내놓는 단순한 구조였다. 하지만 실제 환경에서 사용자는 여러 화면을 거치며 작업을 수행하고, AI는 그 과정을 지켜보며 도움이 필요한 순간을 스스로 판단해야 한다. PARE는 이를 위해 앱의 각 화면을 노드로, 화면 간 이동을 엣지로 연결한 유한 상태 기계(FSM)를 도입하여 실제 UI 내비게이션 과정을 재현한다.

사용자 시뮬레이터는 실제 사람처럼 화면을 하나씩 넘기며 정보를 찾고 입력해야 하는 제약을 갖는 반면, AI 어시스턴트는 백엔드 API에 직접 접근할 수 있는 비대칭적 권한을 가진다. 이는 실제 스마트폰 환경에서 사용자는 UI를 보지만, 시스템 서비스인 어시스턴트는 데이터에 직접 접근하는 현실적인 비대칭성을 반영한 설계이다.

이 구조를 통해 AI는 사용자가 이메일을 읽다가 캘린더를 여는 행동을 보고 '일정 등록'이라는 숨겨진 목표를 추론한다. 단순히 명령을 수행하는 것을 넘어, 언제 개입해야 사용자를 방해하지 않고 가장 효과적으로 도울 수 있는지를 학습하고 평가할 수 있게 된다.

방법론

PARE는 Stackelberg POMDP를 기반으로 사용자(리더)와 에이전트(팔로워)의 상호작용을 공식화한다. 사용자는 자신의 목표를 달성하기 위해 일련의 행동을 취하며, 에이전트는 이를 관찰하여 제안을 생성한다. 사용자가 이 제안을 수락하면 에이전트의 실행 모드가 활성화되어 작업을 완수하는 구조이다.

앱 환경은 FSM으로 모델링되어 각 상태마다 사용 가능한 도구가 동적으로 변한다. [현재 상태와 사용자 행동을 입력으로] → [FSM 전이 함수를 적용해] → [다음 상태를 도출하고] → [이는 사용자가 이동한 새로운 앱 화면과 가용 도구 목록을 의미한다.] 이 과정을 통해 실제 UI 내비게이션을 시뮬레이션한다.

에이전트는 Observe와 Execute 두 단계로 작동한다. Observe 모드에서는 읽기 전용 도구만 사용하여 정보를 수집하고 제안을 던진다. 사용자가 수락하면 Execute 모드로 전환되어 전체 앱의 플랫 API 권한을 얻어 다중 앱 오케스트레이션을 수행한다. [사용자 행동 관찰 → 목표 추론 → 제안 생성 → 사용자 수락 여부 확인 → 실행]의 루프를 통해 선제적 보조가 완성된다.

주요 결과

PARE-Bench 평가 결과, Gemini 3 Flash와 Claude 4.5 Sonnet이 각각 42.1%와 42.0%의 성공률을 기록하며 가장 우수한 성능을 보였다. GPT-5는 37.4%의 성공률을 기록했으며, 제안율이 28.1%로 가장 높아 다소 과도하게 개입하는 경향이 확인됐다.

소형 모델 중에서는 Qwen 3 4B가 18.5%의 성공률로 가장 앞섰으나, Llama 3.2 3B(10.0%)와 Gemma 3 4B(3.0%)는 현저히 낮은 성능을 보였다. 특히 소형 모델들은 제안 수락률은 비교적 높았으나 실제 실행 단계에서 실패하는 경우가 많아, 목표 추론보다는 복잡한 도구 사용 능력이 주요 병목 구간임이 밝혀졌다.

환경 노이즈에 대한 강건성 실험에서 Claude 4.5 Sonnet은 분당 6개의 스팸 알림이 발생하는 상황에서도 성능 저하가 거의 없었으나, Gemini 3 Flash와 GPT-5는 노이즈가 증가함에 따라 성공률이 하락했다. 이는 고성능 모델 간에도 유효한 정보와 노이즈를 구분하는 능력에 유의미한 차이가 있음을 시사한다.

기술 상세

PARE의 핵심은 비대칭적 관찰 및 행동 공간 설계이다. 사용자 에이전트는 현재 화면의 텍스트와 제한된 알림만 보지만, 선제적 에이전트는 모든 앱의 직렬화된 데이터와 사용자의 과거 행동 로그를 모두 관찰할 수 있다. 이러한 정보의 비대칭성은 에이전트가 사용자보다 더 넓은 시야를 갖고 도움을 줄 수 있는 기술적 근거가 된다.

시나리오 생성은 LLM 기반의 4단계 파이프라인(스토리 생성, 초기 데이터 삽입, 이벤트 흐름 구축, 검증)을 통해 자동화되었다. 생성된 시나리오는 Oracle 모드에서 실행 가능 여부가 검증되며, 최종적으로 사람이 의미론적 일관성을 확인한다. 이를 통해 수동 제작의 한계를 넘어 143개의 고품질 테스트 케이스를 확보했다.

보상 구조는 성공 여부에 따른 터미널 보상과 제안 수락 여부에 따른 단계별 보상의 듀얼 구조를 취한다. [제안 수락 시 +1, 거절 시 -1, 최종 성공 시 1을 부여하여] → [전체 보상을 합산하고] → [이를 통해 에이전트가 적절한 타이밍에 정확한 제안을 하도록 유도한다.] 이는 강화학습 환경에서 에이전트 정렬을 위한 핵심 신호로 활용된다.

한계점

PARE는 앱 상호작용을 시각적 화면 픽셀이 아닌 도구 호출 기반으로 모델링하므로, 실제 멀티모달 배포 환경에서 필요한 시각적 접지 능력은 테스트하지 못한다. 또한, 시뮬레이션된 사용자가 피로도나 감정 상태 등 실제 인간의 복잡한 행동 특성을 완벽히 재현하지 못할 수 있다.

실무 활용

스마트폰이나 PC 환경에서 사용자의 작업 흐름을 방해하지 않으면서 필요한 도움을 먼저 제안하는 지능형 개인 비서 서비스 개발 및 평가에 직접적으로 활용 가능하다.

이메일 내용을 바탕으로 캘린더 일정 자동 등록 제안
쇼핑 목록과 메시지 내용을 대조하여 부족한 품목 자동 추가
예산 변경 알림을 확인하고 조건에 맞지 않는 저장된 매물 정리 제안

코드 공개 여부: 공개

코드 저장소 보기

키워드

Proactive Agent(선제적 에이전트)User Simulation(사용자 시뮬레이션)FSM(유한 상태 기계)Benchmark(벤치마크)Multi-app Orchestration(다중 앱 오케스트레이션)