핵심 요약
대형 언어 모델(Large Language Models, LLMs)로 구동되는 경로 계획(Route-planning) 에이전트는 자연어 상호작용과 도구 매개 의사결정을 통해 일상적인 인간의 이동을 지원하는 유망한 패러다임으로 부상했다. 그러나 실제 이동 환경에서의 체계적인 평가는 다양한 경로 요구사항, 비결정론적인 지도 서비스, 그리고 제한된 재현성으로 인해 어려움을 겪고 있다. 본 연구에서는 실제 이동 시나리오에서 LLM 기반 경로 계획 에이전트를 평가하기 위한 확장 가능한 벤치마크인 MobilityBench를 제안한다. MobilityBench는 Amap에서 수집된 대규모 익명 실제 사용자 쿼리로 구축되었으며, 전 세계 여러 도시의 광범위한 경로 계획 의도를 포함한다. 재현 가능한 엔드투엔드(End-to-end) 평가를 가능하게 하기 위해, 라이브 서비스의 환경적 변동성을 제거하는 결정론적 API 리플레이 샌드박스(API-replay sandbox)를 설계했다. 또한 결과의 유효성(Outcome validity)을 중심으로 지침 이해, 계획, 도구 사용 및 효율성에 대한 평가를 보완하는 다차원 평가 프로토콜을 제안한다. MobilityBench를 사용하여 다양한 실제 이동 시나리오에서 여러 LLM 기반 경로 계획 에이전트를 평가하고 그들의 행동과 성능에 대한 심층 분석을 제시한다. 연구 결과, 현재 모델들은 기본적인 정보 검색 및 경로 계획 작업에서는 유능한 성능을 보이지만, 선호도 제약이 있는 경로 계획(Preference-Constrained Route Planning)에서는 상당한 어려움을 겪고 있음을 확인했으며, 이는 개인화된 이동 애플리케이션에서 개선의 여지가 큼을 시사한다. 벤치마크 데이터, 평가 툴킷 및 문서를 공개적으로 배포한다.
핵심 기여
대규모 실제 데이터 기반 MobilityBench 구축
Amap의 익명화된 실제 사용자 쿼리를 활용하여 전 세계 여러 도시의 복잡하고 다양한 경로 계획 의도를 반영한 벤치마크를 제작했다.
결정론적 API 리플레이 샌드박스 설계
외부 지도 서비스의 실시간 변동성을 배제하고 실험의 재현성을 보장하기 위해 고정된 환경에서 에이전트를 테스트할 수 있는 샌드박스 환경을 구현했다.
다차원적 에이전트 평가 프로토콜 제안
단순히 최종 결과의 유효성뿐만 아니라 지침 이해도, 계획 능력, 도구 활용 능력, 실행 효율성 등을 종합적으로 측정하는 평가 체계를 확립했다.
방법론
MobilityBench는 실제 사용자 쿼리를 기반으로 시나리오를 구성하며, 외부 API 호출 시 발생하는 비결정론적 요소를 제어하기 위해 API 리플레이 샌드박스 구조를 채택했다. 에이전트의 성능은 결과 유효성(Outcome Validity)을 핵심 지표로 삼고, 도구 호출의 정확성과 계획의 논리적 일관성을 포함한 다차원 지표를 통해 측정된다.
주요 결과
실험 결과, LLM 에이전트들은 기본 정보 검색 및 단순 경로 계획에서는 우수한 성능을 보였으나, 특정 선호도나 제약 조건이 포함된 경로 계획(Preference-Constrained Route Planning)에서는 성능이 급격히 저하되는 양상을 보였다. 이는 복잡한 사용자 요구사항을 충족하는 개인화된 경로 생성 능력이 아직 부족함을 나타낸다.
시사점
이 연구는 LLM 기반 이동 지원 에이전트의 실제 성능을 객관적으로 비교할 수 있는 표준을 제공한다. 특히 개발자들은 제안된 샌드박스를 통해 외부 API 환경에 구애받지 않고 에이전트의 계획 및 도구 사용 로직을 정밀하게 튜닝할 수 있으며, 개인화된 경로 추천 기능 강화의 필요성을 확인하게 된다.
키워드
섹션별 상세
대규모 실제 데이터 기반 MobilityBench 구축
결정론적 API 리플레이 샌드박스 설계
다차원적 에이전트 평가 프로토콜 제안
AI 요약 · 북마크 · 개인 피드 설정 — 무료