FinToolBench: 실세계 금융 도구 활용을 위한 LLM 에이전트 평가 벤치마크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

금융 분야는 데이터의 휘발성이 높고 규제 준수가 엄격하여 단순한 지식 답변보다 정확한 도구 사용이 필수적이다. 이 논문은 가상의 도구가 아닌 실제 작동하는 760개의 금융 API를 활용해 에이전트의 실행력과 금융 특화 제약 사항 준수 여부를 동시에 평가하는 최초의 환경을 제공한다.

왜 중요한가

핵심 기여

FinToolBench 구축

760개의 실행 가능한 금융 도구와 295개의 복합 쿼리를 포함한 실세계 구동형 벤치마크를 구축함.

금융 특화 평가 지표 도입

단순 실행 성공률을 넘어 적시성(Timeliness), 의도 제한(Intent Restraint), 도메인 정렬(Domain Alignment) 등 금융 실무에 필수적인 규제 준수 지표를 정의함.

FATR 베이스라인 제시

금융 제약 조건을 명시적으로 고려하는 도구 검색 및 추론 프레임워크를 통해 에이전트의 안정성과 규제 준수 능력을 향상시킴.

핵심 아이디어 이해하기

기존 LLM 에이전트 평가는 주로 API 호출의 문법적 정확성이나 최종 답변의 정답 여부에만 집중했다. 하지만 금융 도메인에서는 현재 환율을 묻는 질문에 어제의 데이터를 가져오는 API를 호출하거나, 단순 정보 조회 요청에 자산 이체 도구를 사용하는 등의 행위는 치명적인 위험을 초래한다.

FinToolBench는 이러한 한계를 극복하기 위해 모든 도구에 금융 속성(Finance Attributes)이라는 메타데이터를 부여한다. 이는 딥러닝의 Attention 메커니즘이 입력 데이터의 중요도를 계산하듯, 에이전트가 도구를 선택할 때 해당 도구의 데이터 갱신 주기나 허용된 작업 범위를 사전에 인지하도록 유도한다.

이를 통해 에이전트는 단순히 도구를 실행하는 단계를 넘어, 주어진 상황과 규제 맥락에 정렬된 도구 사용 체인을 형성하게 된다. 결과적으로 모델의 파라미터 지식에만 의존하지 않고, 외부 도구를 안전하고 정확하게 활용하는 실무형 AI의 성능을 측정할 수 있게 된다.

방법론

FinToolBench는 RapidAPI와 AkShare 등 실제 금융 데이터 소스에서 760개의 도구를 수집하고 정규화한다. 각 도구는 인터페이스 유효성, 중복 제거, 속도 제한 충족 여부 등을 기준으로 엄격하게 필터링되어 실행 가능한 상태로 유지된다.

수집된 도구에는 LLM을 활용해 적시성(실시간/일간/정적 등), 의도 유형(정보/자문/거래), 규제 도메인(주식/채권/외환 등) 속성을 주석으로 추가한다. [도구 명세 입력 → LLM 다수결 투표 → 금융 속성 출력] 과정을 거쳐 에이전트가 참조할 수 있는 도구 카드를 생성한다.

FATR(Finance-Aware Tool Routing) 프레임워크는 검색(Retrieval)과 계획(Planning) 단계에서 이 속성들을 활용한다. [질문 텍스트 입력 → BGE-M3 임베딩 모델을 통한 벡터 유사도 계산 → 상위 K개 도구 리스트 출력] 과정을 통해 후보군을 좁힌 뒤, 도구 카드의 속성과 대조하여 부적절한 도구를 사전에 필터링하거나 프롬프트 규칙으로 강제한다.

주요 결과

실험 결과, Qwen3-8B는 가장 높은 도구 호출률(TIR 0.8712)을 보였으나 실행 성공률(TESR 0.2949)은 낮아 도구 사용에 적극적이지만 오류가 잦은 특성을 보였다. 반면 GPT-4o는 매우 보수적인 전략을 취해 호출률(TIR 0.2267)은 낮았으나, 호출 시 성공률(CER 0.6176)과 답변 정확도(CSS 0.6700)는 가장 높았다.

Doubao-Seed-1.6은 실행 성공률(TESR 0.3254)에서 가장 우수한 균형을 보여주었다. 모든 모델에서 금융 속성 주입(Attribute Injection)을 실시했을 때, 도구 호출의 부적절한 매칭률(TMR, IMR, DMR)이 유의미하게 감소하며 규제 준수 능력이 향상됨을 확인했다.

기술 상세

FinToolBench의 핵심 아키텍처는 실행 가능한 도구 라이브러리와 도구 사용이 필수적인 질문 세트의 결합이다. 760개의 도구는 통합된 매니페스트 스키마로 정규화되어 에이전트가 일관된 방식으로 호출할 수 있도록 설계됐다.

평가 지표는 역량(Capability)과 준수(Compliance)로 이원화된다. 역량 지표인 TIR, TESR, CER은 도구 호출 및 실행의 기술적 성공을 측정하며, 준수 지표인 TMR(Timeliness Mismatch Rate), IMR(Intent Mismatch Rate), DMR(Domain Mismatch Rate)은 금융 도메인 특유의 제약 조건 위반 여부를 정량화한다.

FATR 베이스라인은 ReAct 루프를 기반으로 하되, 상위 K개의 도구를 검색한 후 도구 카드 형식으로 금융 속성을 주입한다. 이는 에이전트의 컨텍스트 윈도우 내에서 규제 정보를 명시화하여 할루시네이션이나 부적절한 도구 에스컬레이션을 방지하는 역할을 수행한다.

한계점

현재 벤치마크는 무료 티어 API에 국한되어 있어 실제 상용 금융 데이터 계약이 필요한 고도화된 실시간 데이터 피드에 대한 평가는 제한적일 수 있다. 또한 API의 업데이트나 정책 변화에 따른 에이전트의 회복탄력성 연구가 향후 과제로 남아 있다.

실무 활용

금융권에서 LLM 에이전트를 도입할 때 발생할 수 있는 규제 위반 및 데이터 오류 리스크를 사전에 검증하는 테스트베드로 활용 가능하다.

금융 특화 AI 에이전트의 API 활용 능력 벤치마킹
실시간 시장 데이터 기반의 자동화된 투자 분석 시스템 검증
금융 규제 준수 여부를 감시하는 AI 감사 시스템 개발

코드 공개 여부: 공개

코드 저장소 보기

키워드

LLM(대형 언어 모델)Agent(에이전트)Financial Benchmark(금융 벤치마크)Tool Use(도구 활용)Compliance(규제 준수)