TL;DR
대규모 언어 모델 에이전트는 실제 작업에 앞서 환경별 절차를 학습해야 한다. PREPING은 target-task 없이도 프런트메모리, 프로시저를 구축하여 배포 시 초기 성능과 비용을 개선한다.
왜 중요한가
대규모 언어 모델 에이전트는 실제 작업에 앞서 환경별 절차를 학습해야 한다. PREPING은 target-task 없이도 프런트메모리, 프로시저를 구축하여 배포 시 초기 성능과 비용을 개선한다.
핵심 기여
Proposer-guided synthetic practice
Proposer(Mprop)가 환경 문서와 과거 연습 이력에 기반해 합성 태스크를 제안하고, Solver가 이를 실행해 Trajectory를 생성한다.
Validator-gated memory admission
Validator(Aval)가 각 태스크-궤적 쌍의 실행 가능성 및 완성도를 평가하고, 이 신호를 바탕으로 solver memory에 넣을지 결정한다.
Memory as construction-time control
Mprop은 연습 분포를 제어하는 구성-시간 상태로 작동하여 중복을 줄이고 커버리지를 확장하도록 유도한다.
Deployment cost reduction
사전 메모리 구축으로 배포 시 메모리 업데이트 비용과 초기 콜드 스타트를 낮춘다.
Task-initialization for online memory
PREPING+ACE는 온라인 메모리 구성의 초기화를 개선하여 실사용 초기 성능을 끌어올린다.
핵심 아이디어 이해하기
기본 개념: 환경 문서만으로 도구의 동작을 학습하려면 작업 수준의 목표를 스스로 만들어야 한다. PREPING은 proposer memory로 무엇을 연습할지 제어하고 validator로 어떤 경로가 메모리에 유용한지 걸러낸다. 이 조합은 무작위 합성보다 더 넓고 실행가능한 프로시저를 메모리에 담아 배포 시 바로 활용 가능하게 한다.
방법론
전체 접근 방식은 세 모듈로 구성된다: Proposer(Aprop) = 합성 태스크 생성, Solver(Asol) = 환경에서 태스크 실행, Validator(Aval) = 태스크-궤적의 실행 가능성/완성도 평가. 각 반복에서 Mprop와 Msol이 비대칭적으로 업데이트되며, Feasible(vt)이 참인 경우에만 Msol에 반영된다. Proposer 메모리는 과거의 태스크-궤적과 grounded 환경 정보를 바탕으로 다음 제안을 제어하고, Validator의 피드백은 제안의 방향성과 메모리 품질을 보정한다.
관련 Figure

Proposer-Solver-Validator의 역할 분담과 메모리 업데이트 흐름을 시각적으로 보여준다.
PREPING 파이프라인의 전체 흐름도

환경 정보와 task-history를 바탕으로 다음 합성 태스크를 설계하는 흐름을 보완한다.
Proposer 메모리의 환경 정보 활용과 제안 제어

Feasible 여부에 따른 solver 메모리 업데이트를 보여주고, 메모리 주입의 조건을 시각화한다.
Validator의 메모리 업데이트 시나리오
주요 결과
주요 벤치마크에서 PREPING은 기저선(Base)을 상회하는 성능을 달성한다. AppWorld에서 PREPING은 N-TGC 83.7, N-SGC 70.2, C-TGC 72.2, C-SGC 54.7, Avg 70.2로 나타났다. BFCL v3에서 Avg 65.2, MCP-Universe에서 Avg 37.5를 기록했다. ACE-Online 대비 PREPING은 초기 메모리의 품질과 범용성을 확보하며, PREPING+ACE 조합은 AppWorld에서 N-TGC 86.1, N-SGC 73.8, C-TGC 80.1, C-SGC 65.2, Avg 76.3으로 온라인 학습 초기의 개선을 지속한다.
관련 Figure

실험 구성 및 구성요소 간 관계를 이해하는 데 도움이 된다.
구현 예시 및 실험 구간

벤치마크 성능 비교 및 ablation 효과를 시각적으로 요약한다.
실험 결과 요약 표
기술 상세
PREPING은 Proposer memory(Mprop)와 Solver memory(Msol) 두 가지 메모리 상태를 분리하여 관리한다. Xt ~ Aprop(·|Mprop,D)로 synthetic task를 생성하고 τt ~ Asol(xt,Msol,E)로 실행한다. vt = Aval(xt,τt)로 평가된 타당성 및 완성도를 바탕으로 Mprop를 업데이트하고, Feasible(vt) 조건을 만족하는 경우에만 Msol이 업데이트된다. 제안된 task의 학습 흐름은 task-history와 grounded-env 정보를 결합하여 Feasible한 trajectory들만 메모리에 저장되도록 보장한다. 이 구조는 과도한 task 생성이나 비-grounded 정보를 피하고, 메모리의 품질과 downstream 커버리지를 동시에 확보한다.
실무 활용
사전 메모리 구축으로 배포 시 초기 성능 확보 및 온라인 메모리 업데이트 비용 절감을 달성한다.
- Online 메모리 업데이트를 위한 초기 시작점으로 PREPING 메모리 활용
- ACE-Online과의 결합으로 온라인 학습 속도 및 안정성 개선
- 다양한 MCP 환경에서 초기 메모리 커버리지 확장
코드 공개 여부: 비공개
키워드
코드 예제
# PREPING의 기본 루프 예시(요약)
Xt = x1_t..xN_t
xt ~ Aprop(Mprop, D; N)
for i in range(N):
τt_i = Asol(xt[i], Msol, E)
vt_i = Aval(xt[i], τt_i)
Mprop = Uprop(Mprop, xt[i], τt_i, vt_i)
if Feasible(vt_i):
Msol = Usol(Msol, xt[i], τt_i, vt_i)
# solver-memory에 추가
PREPING의 알고리즘에서 제안-실행-검증-메모리 업데이트의 순서를 보여주는 핵심 루프 예시
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.