핵심 요약
실시간 교통 상황이나 API 응답의 가변성 때문에 LLM 에이전트의 경로 계획 능력을 공정하게 비교하기 어려웠던 문제를 해결한다. 10만 개의 실제 사용자 쿼리와 결정론적 API 재현 환경을 제공하여 복잡한 제약 조건이 포함된 이동 시나리오에서 에이전트의 성능을 객관적으로 검증할 수 있게 한다.
왜 중요한가
실시간 교통 상황이나 API 응답의 가변성 때문에 LLM 에이전트의 경로 계획 능력을 공정하게 비교하기 어려웠던 문제를 해결한다. 10만 개의 실제 사용자 쿼리와 결정론적 API 재현 환경을 제공하여 복잡한 제약 조건이 포함된 이동 시나리오에서 에이전트의 성능을 객관적으로 검증할 수 있게 한다.
핵심 기여
대규모 실세계 이동성 데이터셋 구축
Amap의 실제 익명 사용자 쿼리 10만 건을 기반으로 11가지 시나리오와 4가지 작업군을 포함하는 대규모 벤치마크를 설계하여 일상적인 이동 수요의 다양성을 반영했다.
결정론적 API-replay 샌드박스 구현
실시간 API의 비결정성을 제거하기 위해 특정 시점의 교통 및 POI 데이터를 캐싱하여 에이전트가 동일한 입력에 대해 항상 동일한 환경 응답을 받도록 보장하는 재현 가능한 환경을 구축했다.
다차원 평가 프로토콜 제안
단순 성공률을 넘어 지시문 이해, 계획 수립, 도구 사용, 의사 결정, 효율성 등 5가지 핵심 역량을 세부 지표로 측정하는 체계를 제안하여 성능 병목 지점을 정밀 진단할 수 있게 했다.
주요 LLM 에이전트의 성능 한계 규명
GPT-4, Claude, Gemini 등 주요 모델을 대상으로 실험을 수행하여 기본 정보 검색은 우수하나 선호도 제약 조건이 포함된 복잡한 경로 계획에서는 성능이 급격히 하락함을 확인했다.
핵심 아이디어 이해하기
기존 LLM 에이전트 평가는 주로 정적인 텍스트 데이터셋에 의존했으나 실제 경로 계획은 실시간 교통량과 사용자 선호도(고속도로 제외 등)라는 동적인 제약 조건을 외부 API와 상호작용하며 해결해야 한다. MobilityBench는 이 과정에서 발생하는 외부 시스템의 가변성을 제거하기 위해 결정론적 샌드박스 개념을 도입했다.
샌드박스는 마치 비디오 게임의 세이브 파일을 불러오듯 특정 시점의 지도 서비스 응답을 고정해둔다. 에이전트가 API를 호출하면 실제 서버가 아닌 캐시된 응답을 반환함으로써 에이전트의 성능 차이가 외부 환경 변화가 아닌 순수하게 모델의 추론 및 도구 활용 능력에서 기인하도록 만든다.
이 접근법을 통해 연구자들은 에이전트가 복잡한 사용자 의도를 얼마나 정확하게 API 파라미터로 변환하고 필요한 도구를 논리적 순서에 맞게 호출하며 최종적으로 모든 제약 조건을 만족하는 경로를 생성하는지를 수치화된 지표로 정밀하게 분석할 수 있다.
방법론
에피소드 중심 공식화 방식을 채택하여 각 에피소드를 사용자 쿼리 x, 컨텍스트 정보 z, API 응답 스냅샷 S, 구조화된 정답 주석 y의 4개 튜플로 정의했다. 모든 에피소드는 추가 질문 없이 초기 쿼리만으로 해결 가능하도록 설계되어 에이전트의 독립적인 문제 해결 능력을 평가한다.
작업 분류 체계는 Qwen-4B를 활용한 자동 분류와 전문가 검수를 거쳐 4대 가족군(기본 정보 검색, 경로 의존적 정보 검색, 기본 경로 계획, 선호도 제약 경로 계획)과 11개 세부 시나리오로 확립했다. 각 시나리오별로 전문가가 정의한 표준 운영 절차(SOP)에 따라 최소 도구 호출 시퀀스를 프로그램 형태로 작성하여 자동 평가의 기준이 되는 Ground-Truth를 구축했다.
평가 지표는 의도 탐지(ID)와 정보 추출(IE)을 통해 이해도를 측정한다. ID는 전체 쿼리 집합 X에 대해 예측된 의도 라벨과 실제 라벨 간의 유사도 sim(y_hat, y)를 계산한다. 이 유사도가 임계값 alpha 이상이면 1, 아니면 0을 부여하고 이를 전체 쿼리 수로 나누어 평균을 구한다. 이는 모델이 사용자의 이동 의도를 얼마나 정확한 카테고리로 분류했는지를 나타낸다.
도구 사용 능력은 도구 선택(TS)과 스키마 준수(SC)로 평가한다. SC는 에이전트가 생성한 도구 호출 시퀀스 ST_pred(x) 내의 각 호출 t에 대해 필수 파라미터 포함 여부와 값의 유효 범위를 확인하는 지표 함수 fsc(P(t), t)를 적용한다. 이를 전체 호출 수로 평균 내어 모델이 API 명세를 얼마나 정확히 따르는지 측정한다.
주요 결과
모델 성능 비교 결과 Claude-Opus-4.5가 Plan-and-Execute 프레임워크에서 83.53%의 전달률(DR)과 65.77%의 최종 통과율(FPR)을 기록하며 가장 우수한 성능을 보였다. ReAct 프레임워크에서는 Gemini-3-Pro-Preview가 69.09%의 FPR로 가장 높은 점수를 얻어 반복적인 추론 루프에서의 강점을 입증했다.
시나리오별 분석에서는 모든 모델이 단순 정보 검색이나 기본 경로 계획에서는 준수한 성능을 보였으나 선호도 제약 조건이 포함된 시나리오에서는 성능이 크게 떨어졌다. 특히 고속도로 제외나 최소 환승과 같은 사용자 맞춤형 제약 조건을 논리적으로 결합하여 경로를 생성하는 데 있어 현재 LLM 에이전트들이 큰 어려움을 겪고 있음이 확인됐다.
추론 모드에 따른 영향 분석에서는 DeepSeek-R1과 같은 사고(Thinking) 지향 모델이 일반 모델 대비 성능 향상을 보였다. Qwen-30B-A3B 모델에 사고 기능을 활성화했을 때 FPR이 절대치 기준 5.98% 상승했다. 그러나 생성되는 토큰 양이 급증하여 API 비용과 지연 시간이 크게 늘어나는 트레이드오프가 발생하여 실시간 서비스 적용을 위한 효율성 개선이 과제로 남았다.
기술 상세
API-Replay Sandbox는 Amap 웹 서비스 API를 기반으로 설계되었으며 에이전트의 모든 API 호출을 가로채 캐싱된 응답과 매칭한다. 정확한 캐시 히트가 없는 경우를 대비해 엔티티 기반 쿼리에 대한 퍼지 매칭(Fuzzy Matching)과 좌표 기반 쿼리에 대한 최근접 이웃 공간 매칭 알고리즘을 적용하여 환경의 견고성을 높였다.
에이전트 실행 프레임워크 비교 연구를 통해 ReAct와 Plan-and-Execute 간의 기술적 트레이드오프를 규명했다. ReAct는 폐쇄 루프 피드백 구조를 통해 도구 호출 결과에 따라 전략을 동적으로 수정할 수 있어 FPR이 높지만 관찰 이력이 컨텍스트에 누적되어 입력 토큰(IT) 소모량이 Plan-and-Execute 대비 평균 35.38% 더 많다.
학습 및 구현 세부사항으로 모든 모델의 샘플링 온도를 0.1로 고정하고 최대 출력 길이를 8,192 토큰으로 제한하여 평가의 변동성을 최소화했다. 또한 무한 루프 방지를 위해 에이전트의 최대 추론 단계를 10단계로 캡핑하여 실제 운영 환경에서의 제약 사항을 반영했다.
한계점
에이전트가 사용자에게 추가 질문을 할 수 없는 무교환(No-clarification) 가정을 전제로 하고 있어 사용자의 모호한 의도를 대화를 통해 해소하는 능력은 평가 범위에서 제외되었다.
실무 활용
지도 및 내비게이션 서비스에 LLM 에이전트를 도입하려는 기업이 에이전트의 신뢰성을 검증하고 최적의 모델 및 프레임워크 조합을 선택하는 데 직접 활용할 수 있다.
- LLM 기반 개인 맞춤형 여행 가이드 에이전트의 성능 벤치마킹 및 품질 보증
- 복잡한 제약 조건(경유지, 특정 도로 제외 등) 처리를 위한 에이전트 프롬프트 및 워크플로 최적화
- 실시간 API 호출 비용 절감을 위한 에이전트의 도구 사용 효율성 평가
- 자율 주행 시스템의 상위 수준 경로 의사 결정 모듈에 대한 시나리오 기반 테스트
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.