컨텍스트가 아닌 에이전트 능력의 확장: 대규모 도구 공간을 위한 효율적인 강화학습 파인튜닝

수백 개의 도구를 사용하는 복잡한 환경에서 소형 언어 모델(SLM)은 컨텍스트 부족과 실행 오류로 인해 한계를 보였다. ATLAS는 도구를 필요할 때만 불러오고 실행 과정을 코드로 관리하는 법을 학습시켜, 적은 자원으로도 대형 모델에 근접하는 정교한 작업 수행 능력을 확보했다.

왜 중요한가

핵심 기여

ATLAS 프레임워크 개발

소형 언어 모델이 대규모 도구 환경에서 효율적으로 작동하도록 돕는 강화학습 파인튜닝 프레임워크를 구축했다.

적응형 도구 로딩 메커니즘

모든 도구 명세를 한꺼번에 입력하는 대신, 필요한 시점에 서버와 도구를 선택적으로 로드하여 컨텍스트 사용량을 최적화했다.

프로그래밍 방식의 도구 오케스트레이션

자연어 대화 기반의 도구 호출 대신 파이썬 코드를 생성하여 실행 흐름을 제어함으로써 장기 작업의 안정성을 높였다.

루브릭 기반 강화학습 보상 설계

단순 성공 여부가 아닌 작업별 세부 기준(루브릭)을 통해 보상을 세분화하여 학습 효율을 극대화했다.

핵심 아이디어 이해하기

기존 에이전트는 수많은 도구의 설명(Schema)을 컨텍스트 윈도우에 모두 집어넣어야 했다. 이는 Transformer의 Attention 연산량을 폭증시키고, 정작 중요한 추론에 쓸 공간을 갉아먹는 결과를 낳았다. 특히 소형 모델(SLM)은 이 압박을 견디지 못하고 도구 선택 오류를 범하거나 실행 흐름을 놓치기 일쑤였다.

ATLAS는 '무엇을, 언제 불러올지' 자체를 모델이 학습해야 할 결정 사항으로 정의한다. 처음에는 서버 목록만 보고, 필요할 때 특정 서버를 열어 도구 목록을 확인하는 계층적 구조를 채택했다. 이는 마치 도서관의 모든 책을 책상에 쌓아두는 대신, 인덱스를 보고 필요한 책만 꺼내 보는 것과 같은 원리다.

또한, 실행 과정을 자연어 대화가 아닌 '파이썬 코드'라는 구조화된 형태로 관리한다. 중간 결과물을 컨텍스트에 계속 다시 쓰는 대신 코드 내 변수에 저장함으로써, 토큰 소모를 줄이고 루프나 조건문 같은 복잡한 로직을 안정적으로 수행할 수 있게 했다.

방법론

ATLAS는 반복적 서버 로딩(ISL)과 반복적 도구 로딩(ITL)을 통해 컨텍스트를 제어한다. 에피소드 시작 시 서버 인덱스만 제공받고, 모델은 fetch_tools 메타 연산을 통해 특정 서버의 도구 명세를 단계적으로 호출한다. [서버 인덱스 입력 → 서버 선택 연산 → 도구 명세 출력 → 컨텍스트 최소화] 순으로 작동하여 메모리 효율을 극대화한다.

통합 프로그래밍 실행 모델(PTC)은 JSON 기반의 턴제 상호작용을 파이썬 인터프리터 기반의 코드 생성으로 대체한다. 모델은 도구 호출을 함수 호출로 표현하고 제어 흐름을 코드로 작성한다. [작업 계획 입력 → 파이썬 코드 생성 → 인터프리터 실행 → 상태 변수 저장] 과정을 통해 중간 결과가 프롬프트를 오염시키는 것을 방지한다.

루브릭 기반 강화학습(RFT)은 GPT-5를 이용해 작업별 평가 기준(루브릭)을 자동 생성하고, 이를 바탕으로 Qwen3-30B와 같은 중간 크기 모델이 보상을 계산하게 한다. [작업 명세 입력 → 루브릭 생성 → 궤적 평가 → 세분화된 보상 산출] 과정을 거쳐, 단순 성공/실패 보상보다 훨씬 밀도 높은 학습 신호를 제공한다.

주요 결과

MCPBench 벤치마크에서 ATLAS를 적용한 Qwen3-4B 모델은 작업 완수도(Task Fulfillment) 4.15점을 기록했다. 이는 1조 개의 파라미터를 가진 프론티어 모델인 Kimi-K2 Thinking(4.38점)의 성능에 근접한 수치이며, 기본 모델(2.36점) 대비 약 75% 향상된 결과다.

컨텍스트 효율성 측면에서 ATLAS(ITL+PTC)는 기존 방식 대비 토큰 사용량을 획기적으로 줄였다. Qwen3-4B 기준, 서버 로딩 방식(ISL)에서 12,906개였던 평균 토큰 사용량이 도구 로딩 방식(ITL) 적용 시 9,045개로 약 30% 감소했다.

루브릭 기반 보상은 일반적인 스칼라 보상보다 우수한 성능을 보였다. Qwen2.5-7B 모델에 루브릭 보상을 적용했을 때 TF 점수가 3.18점으로, GPT-4o 판정 기반 보상(3.02점)이나 일반적인 SLM 판정 보상(2.84점)보다 높게 나타났다.

실무 활용

수백 개의 API나 데이터베이스 도구가 연결된 기업용 AI 에이전트 시스템에 즉시 적용 가능하다. 특히 클라우드 비용 절감이나 온디바이스 실행이 필요한 환경에서 소형 모델의 성능을 극대화하는 데 유용하다.

수백 개의 사내 마이크로서비스 API를 조합하여 복잡한 보고서를 작성하는 업무 자동화 에이전트
제한된 메모리의 엣지 디바이스에서 여러 센서 도구를 제어하는 로보틱스 제어 시스템
실시간 금융 데이터 API를 호출하여 복잡한 수익률 계산 및 트렌드 분석을 수행하는 금융 비서

기술 상세

ATLAS 아키텍처의 핵심은 컨텍스트 제어와 실행 구조를 고정된 설계가 아닌 '학습 가능한 결정(Learnable Decisions)'으로 전환한 데 있다. 모델은 단순히 도구를 쓰는 법뿐만 아니라, 현재 상태에서 어떤 도구 명세가 컨텍스트에 포함되어야 하는지를 RL을 통해 최적화한다.

PTC(Programmatic Tool Calling) 구현을 위해 모델 상단에 파이썬 실행기 스캐폴드를 구축했다. 이 레이어는 이질적인 MCP 서버의 JSON 스키마를 파이썬 네이티브 함수 시그니처로 정규화하고, 실행 중 발생하는 오류를 모델이 스스로 수정할 수 있도록 상세한 에러 로그와 힌트를 제공한다.

보상 함수 설계에는 GRPO(Group Relative Advantage Estimation) 알고리즘을 활용했다. 동일 작업에 대해 여러 궤적을 생성하고, 루브릭 기반으로 산출된 가중 합산 점수를 상대적으로 비교하여 정책을 업데이트함으로써 학습의 안정성을 확보했다.

루브릭은 Task Fulfillment(TF), Tool Appropriateness(TA), Tool Grounding(TG), Parameter Accuracy(PA)의 4가지 카테고리로 구성된다. 각 카테고리는 작업의 특성에 맞춰 GPT-5에 의해 동적으로 가중치가 할당되며, 이는 모델이 특정 도구의 오용이나 파라미터 실수에 대해 민감하게 반응하도록 유도한다.

한계점

실행 코드가 복잡해질 경우 루브릭을 정의하기 어렵다는 점이 확인됐다. 또한 현재는 파이썬 코드(PTC)에 대해 구체적인 루브릭 보상을 적용하는 단계까지는 나아가지 못했다는 한계가 존재한다.

키워드

RL(강화학습)SLM(소형 언어 모델)MCP(모델 컨텍스트 프로토콜)에이전트(Agent)도구 오케스트레이션(Tool Orchestration)

컨텍스트가 아닌 에이전트 능력의 확장: 대규모 도구 공간을 위한 효율적인 강화학습 파인튜닝

왜 중요한가

핵심 기여

ATLAS 프레임워크 개발

소형 언어 모델이 대규모 도구 환경에서 효율적으로 작동하도록 돕는 강화학습 파인튜닝 프레임워크를 구축했다.

적응형 도구 로딩 메커니즘

모든 도구 명세를 한꺼번에 입력하는 대신, 필요한 시점에 서버와 도구를 선택적으로 로드하여 컨텍스트 사용량을 최적화했다.

프로그래밍 방식의 도구 오케스트레이션

자연어 대화 기반의 도구 호출 대신 파이썬 코드를 생성하여 실행 흐름을 제어함으로써 장기 작업의 안정성을 높였다.

루브릭 기반 강화학습 보상 설계

단순 성공 여부가 아닌 작업별 세부 기준(루브릭)을 통해 보상을 세분화하여 학습 효율을 극대화했다.

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

수백 개의 사내 마이크로서비스 API를 조합하여 복잡한 보고서를 작성하는 업무 자동화 에이전트
제한된 메모리의 엣지 디바이스에서 여러 센서 도구를 제어하는 로보틱스 제어 시스템
실시간 금융 데이터 API를 호출하여 복잡한 수익률 계산 및 트렌드 분석을 수행하는 금융 비서

기술 상세

한계점

키워드

RL(강화학습)SLM(소형 언어 모델)MCP(모델 컨텍스트 프로토콜)에이전트(Agent)도구 오케스트레이션(Tool Orchestration)

컨텍스트가 아닌 에이전트 능력의 확장: 대규모 도구 공간을 위한 효율적인 강화학습 파인튜닝

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

컨텍스트가 아닌 에이전트 능력의 확장: 대규모 도구 공간을 위한 효율적인 강화학습 파인튜닝

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드