ToolRosetta: 자동화된 도구 표준화를 통한 오픈소스 저장소와 대형 언어 모델 에이전트의 연결

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 AI 에이전트는 사람이 일일이 코딩하여 연결해준 한정된 도구만 사용할 수 있어 확장성에 한계가 있었다. 이 논문은 수많은 오픈소스 라이브러리를 AI 표준 규격인 MCP로 자동 변환하는 프레임워크를 제안하여, AI가 스스로 필요한 전문 도구를 찾아 복잡한 과학적 과업을 수행할 수 있는 길을 열었다.

왜 중요한가

핵심 기여

자동화된 도구 표준화 프레임워크

비정형화된 오픈소스 코드 저장소를 LLM이 즉시 호출 가능한 MCP(Model Context Protocol) 호환 도구로 자동 변환하는 통합 프레임워크를 구축했다.

계층적 멀티 에이전트 아키텍처

계획, 검색, 생성, 보안 검사, 리뷰를 담당하는 전용 에이전트들이 협업하여 도구 탐색부터 실행 환경 구축 및 검증까지의 전 과정을 자율적으로 수행한다.

보안 거버넌스 레이어 통합

오픈소스 코드 실행 시 발생할 수 있는 데이터 유출, 원격 코드 실행(RCE), 리소스 고갈 공격을 방지하기 위해 샌드박싱 및 매개변수화된 실행 메커니즘을 도입했다.

대규모 도구 생태계 구축 및 검증

물리, 생물, 보건 등 6개 과학 분야에서 1,580개의 도구를 성공적으로 생성했으며, 기존 에이전트 시스템 대비 과업 완수 성능을 31% 이상 개선했다.

핵심 아이디어 이해하기

LLM은 코드를 작성하는 능력은 뛰어나지만, 기존에 존재하는 방대한 오픈소스 라이브러리를 실제 실행 환경에 맞춰 설치하고 호출 인터페이스를 구성하는 엔지니어링 작업에는 취약하다. 이는 에이전트가 '이론적으로는 알지만 실제로 도구를 쓰지는 못하는' 상태를 만든다.

ToolRosetta는 이 간극을 메우기 위해 '코드 이해'를 '실행 가능한 서비스'로 전환하는 자동화 파이프라인을 구축한다. 핵심 아이디어는 Anthropic 등이 제안한 MCP(Model Context Protocol)를 표준 앵커로 삼는 것이다. LLM이 소스 코드를 분석하여 핵심 기능을 추출하고, 이를 MCP 규격에 맞는 API 서버 형태로 래핑함으로써 에이전트가 어떤 라이브러리든 동일한 방식으로 호출하게 만든다.

결과적으로 에이전트는 사람이 미리 준비해둔 도구 세트에 갇히지 않고, GitHub에 존재하는 수억 개의 저장소를 자신의 '스킬'로 흡수할 수 있게 된다. 이는 AI가 스스로 도구를 확장하며 진화하는 '자기 진화형 에이전트'로 가는 중요한 단계이다.

방법론

ToolRosetta는 세 가지 핵심 에이전트로 구성된다. 첫째, Tool-search Agent는 사용자 쿼리를 분석하여 [자연어 쿼리 → LLM 의미론적 파싱 → 키워드 추출] 과정을 거쳐 GitHub API를 통해 최적의 후보 저장소를 식별한다.

둘째, MCP-construction Agent는 식별된 저장소를 로컬로 클론한 뒤 DeepWiki 기반의 코드 분석을 수행한다. [소스 코드 및 README 입력 → AST 분석 및 LLM 추론 → 기능적 종속성 파악]을 통해 코드의 핵심 로직을 추출하고, 이를 비동기 방식의 Adapter 모듈로 재구성한다. 이후 Python 3.10 기반의 런타임 환경을 자동으로 구축하고 @tool 데코레이터가 포함된 MCP 서비스 코드를 생성한다.

셋째, Review-Revise-Fix (RRF) 메커니즘을 통해 생성된 도구의 신뢰성을 확보한다. [생성된 코드 실행 → pytest 기반 테스트 수행 → 실패 시 Traceback 캡처] 과정을 거치며, LLM이 오류의 근본 원인을 분석하고 코드를 수정하는 반복 루프를 최대 3회 수행하여 최종적인 실행 가능성을 보장한다.

주요 결과

RosettaEval 벤치마크를 통한 평가 결과, ToolRosetta는 122개의 저장소에 대해 첫 시도에서 53.0%의 변환 성공률을 기록했으며, RRF 반복 수정을 거쳐 최종 68.4%까지 성공률을 높였다. 이는 전체 저장소를 한 번에 변환하려 할 때의 성공률인 3.3% 대비 압도적인 수치이다.

효율성 측면에서 인간 엔지니어가 도구 하나를 표준화하는 데 평균 26.5분이 소요된 반면, ToolRosetta는 약 3.5분(210.1초) 만에 완료하여 86.8%의 시간 단축과 7.6배의 속도 향상을 달성했다.

에이전트 과업 수행 능력에서는 6개 과학 도메인 평균 55.6%의 정확도를 기록했다. 특히 기존 에이전트 시스템들이 관련 도구 부재로 인해 거의 수행하지 못했던 OOD(분포 외) 도메인 과업에서 SciToolAgent(11.7%)나 OpenAgents(21.5%)를 크게 앞지르는 57.4%의 정확도를 보여 도구 자동 확장의 실효성을 입증했다.

기술 상세

ToolRosetta의 아키텍처는 Planning, Search, Construction, Security, Review 에이전트가 협력하는 계층적 구조를 가진다. 특히 MCP(Model Context Protocol)를 채택하여 도구의 정의(Schema)와 실행 로직(Implementation)을 분리함으로써 상호운용성을 극대화했다.

보안 측면에서는 CIA(기밀성, 무결성, 가용성) 트라이어드 모델을 적용했다. 기밀성 유지를 위해 컨테이너 격리 및 경로 화이트리스트를 강제하며, 무결성을 위해 모든 외부 입력은 매개변수화된 실행(Parameterized Execution)을 통해서만 로직에 전달되도록 설계하여 쉘 주입 공격을 원천 차단한다. 가용성 확보를 위해 리소스 쿼터 제한 및 계산 회로 차단기(Circuit Breaker)를 구현했다.

코드 분석 단계에서는 단순 텍스트 매칭이 아닌 AST(Abstract Syntax Tree) 분석과 LLM의 의미론적 해석을 결합하여, 문서화되지 않은 함수의 입력 타입과 반환값 의미를 정확히 추론한다. 이는 정적 분석의 정확성과 LLM의 유연한 해석 능력을 결합한 하이브리드 접근 방식이다.

한계점

현재 구현은 Python 저장소에 최적화되어 있어 R이나 C++ 등 다른 언어로 작성된 과학 소프트웨어 생태계를 완전히 수용하지 못한다. 또한 GUI 기반 애플리케이션이나 대화형 노트북(Jupyter) 형식의 저장소는 프로그래밍 방식의 인터페이스 추출이 어려워 변환 성공률이 낮게 나타난다.

실무 활용

연구자나 개발자가 복잡한 오픈소스 라이브러리를 에이전트용 도구로 일일이 변환할 필요 없이, 자연어 요청만으로 즉시 실행 가능한 API 서비스를 구축하고 활용할 수 있다.

뇌 MRI 이미지 분석을 위한 전문 의료 영상 처리 라이브러리 자동 도구화
유전자 서열 데이터를 입력받아 종을 예측하는 생물학 분석 워크플로 자동 생성
신소재 발견을 위한 결정 구조 생성 및 물리적 타당성 검증 시뮬레이션 자동화
기존 에이전트 시스템에 부족한 특정 도메인(예: 농업, 에너지) 계산 도구의 실시간 보충

코드 공개 여부: 공개

코드 저장소 보기

키워드

LLM(대형 언어 모델)Agent(에이전트)MCP(모델 컨텍스트 프로토콜)Tool-Learning(도구 학습)Open-Source(오픈소스)AI-for-Science(과학을 위한 AI)