PREPING: 작업 전 메모리 구축으로 에이전트의 프로시저 메모리 확보

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

대규모 언어 모델 에이전트는 실제 작업에 앞서 환경별 절차를 학습해야 한다. PREPING은 target-task 없이도 프런트메모리, 프로시저를 구축하여 배포 시 초기 성능과 비용을 개선한다.

왜 중요한가

대규모 언어 모델 에이전트는 실제 작업에 앞서 환경별 절차를 학습해야 한다. PREPING은 target-task 없이도 프런트메모리, 프로시저를 구축하여 배포 시 초기 성능과 비용을 개선한다.

핵심 기여

Proposer-guided synthetic practice

Proposer(Mprop)가 환경 문서와 과거 연습 이력에 기반해 합성 태스크를 제안하고, Solver가 이를 실행해 Trajectory를 생성한다.

Validator-gated memory admission

Validator(Aval)가 각 태스크-궤적 쌍의 실행 가능성 및 완성도를 평가하고, 이 신호를 바탕으로 solver memory에 넣을지 결정한다.

Memory as construction-time control

Mprop은 연습 분포를 제어하는 구성-시간 상태로 작동하여 중복을 줄이고 커버리지를 확장하도록 유도한다.

Deployment cost reduction

사전 메모리 구축으로 배포 시 메모리 업데이트 비용과 초기 콜드 스타트를 낮춘다.

Task-initialization for online memory

PREPING+ACE는 온라인 메모리 구성의 초기화를 개선하여 실사용 초기 성능을 끌어올린다.

핵심 아이디어 이해하기

기본 개념: 환경 문서만으로 도구의 동작을 학습하려면 작업 수준의 목표를 스스로 만들어야 한다. PREPING은 proposer memory로 무엇을 연습할지 제어하고 validator로 어떤 경로가 메모리에 유용한지 걸러낸다. 이 조합은 무작위 합성보다 더 넓고 실행가능한 프로시저를 메모리에 담아 배포 시 바로 활용 가능하게 한다.

방법론

전체 접근 방식은 세 모듈로 구성된다: Proposer(Aprop) = 합성 태스크 생성, Solver(Asol) = 환경에서 태스크 실행, Validator(Aval) = 태스크-궤적의 실행 가능성/완성도 평가. 각 반복에서 Mprop와 Msol이 비대칭적으로 업데이트되며, Feasible(vt)이 참인 경우에만 Msol에 반영된다. Proposer 메모리는 과거의 태스크-궤적과 grounded 환경 정보를 바탕으로 다음 제안을 제어하고, Validator의 피드백은 제안의 방향성과 메모리 품질을 보정한다.

주요 결과

주요 벤치마크에서 PREPING은 기저선(Base)을 상회하는 성능을 달성한다. AppWorld에서 PREPING은 N-TGC 83.7, N-SGC 70.2, C-TGC 72.2, C-SGC 54.7, Avg 70.2로 나타났다. BFCL v3에서 Avg 65.2, MCP-Universe에서 Avg 37.5를 기록했다. ACE-Online 대비 PREPING은 초기 메모리의 품질과 범용성을 확보하며, PREPING+ACE 조합은 AppWorld에서 N-TGC 86.1, N-SGC 73.8, C-TGC 80.1, C-SGC 65.2, Avg 76.3으로 온라인 학습 초기의 개선을 지속한다.

기술 상세

PREPING은 Proposer memory(Mprop)와 Solver memory(Msol) 두 가지 메모리 상태를 분리하여 관리한다. Xt ~ Aprop(·|Mprop,D)로 synthetic task를 생성하고 τt ~ Asol(xt,Msol,E)로 실행한다. vt = Aval(xt,τt)로 평가된 타당성 및 완성도를 바탕으로 Mprop를 업데이트하고, Feasible(vt) 조건을 만족하는 경우에만 Msol이 업데이트된다. 제안된 task의 학습 흐름은 task-history와 grounded-env 정보를 결합하여 Feasible한 trajectory들만 메모리에 저장되도록 보장한다. 이 구조는 과도한 task 생성이나 비-grounded 정보를 피하고, 메모리의 품질과 downstream 커버리지를 동시에 확보한다.

실무 활용

사전 메모리 구축으로 배포 시 초기 성능 확보 및 온라인 메모리 업데이트 비용 절감을 달성한다.

Online 메모리 업데이트를 위한 초기 시작점으로 PREPING 메모리 활용
ACE-Online과의 결합으로 온라인 학습 속도 및 안정성 개선
다양한 MCP 환경에서 초기 메모리 커버리지 확장

코드 공개 여부: 비공개

키워드

PREPINGpre-task memoryproposer memoryvalidator-gated memoryACEonline memory initializationcold-start reduction

코드 예제

python

# PREPING의 기본 루프 예시(요약)
Xt = x1_t..xN_t
xt ~ Aprop(Mprop, D; N)
for i in range(N):
    τt_i = Asol(xt[i], Msol, E)
    vt_i = Aval(xt[i], τt_i)
    Mprop = Uprop(Mprop, xt[i], τt_i, vt_i)
    if Feasible(vt_i):
        Msol = Usol(Msol, xt[i], τt_i, vt_i)
        # solver-memory에 추가

PREPING의 알고리즘에서 제안-실행-검증-메모리 업데이트의 순서를 보여주는 핵심 루프 예시