스킬 프로그램으로 LLM 에이전트의 실행 제어를 구현하는 HASP 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

텍스트로 제시된 스킬은 조언 수준에 머물고 정책 루프에 실제로 개입하는 실행 가능 인스트루먼트로 작동하지 않는다. HASP는 스킬을 Program Functions(PFs)로 변환해 인퍼런스 시점, 이후(post-training), 또는 자기 개선(self-improvement) 시점에 실행 개입을 수행하도록 구성한다. 이를 통해 에이전트의 실패 패턴을 런타임에 수정하고, PF 기반의 피드백을 통해 학습 루프를 강화한다. 웹 검색, 수학 추론, 코딩 등 다양한 도메인에서 기법의 유효성을 보이며, PF-선별과 라이브러리 진화를 통해 지속적 개선이 가능하다.

왜 중요한가

핵심 기여

Skills를 실행 가능한 Program Functions(PFs)로 변환

재사용 가능한 에이전트 경험을 상태-행동 간 인터페이스의 PF로 바꿔, 활성 predicates에 따라 개입 여부를 판단하고 수정된 행동 또는 맥락을 반환한다. PF는 인퍼런스 시점에 바로 개입할 수 있는 모듈로서, 과거의 텍스트 지식이 가진 한계를 극복한다.

HASP 프레임워크의 모듈성

PF 라이브러리 M과 PF-Dispatcher, 교사(Teacher) 보조를 포함하는 외부 핸서를 통해 인퍼런스-후학습-자기 개선으로 흐름을 연결한다. 인퍼런스 타임 PF-개입, post-training에서의 PF-기반 학습, 그리고 self-improvement를 통한 PF 진화가 하나의 프레임워크 안에서 작동한다.

PF 신호 시스템과 이점

타이밍(timing), 모드(mode), 정확성(correctness), 결과(outcome)의 4개 신호를 합산하여 PF 성능 점수 At을 산출하고, 이를 통해 PF의 실행 시점과 형식을 정교하게 제어한다. 이 점수는 후속 학습 데이터의 품질 평가 및 정책 내부화에 활용된다.

PF-주도 학습 및 자기 개선

PF-수정된 기록을 바탕으로 SFT, RS, OPD 등 학습 경로를 통해 학생 모델 πθ를 개선하고, 실패 패턴을 재현 가능한 PF로 확립한다. 실패를 군집화하고 실행 가능하며 검증 가능한 PF만 external library에 반영한다.

광범위한 실험적 검증

웹 검색 추론, 수학 추론, 코딩에서 inference-time PF 개입의 효과를 입증하고, PF 기반의 학습 및 자기 개선이 벤치마크에서 경쟁력 있는 성능 향상을 이끈다. 예를 들어 웹 검색에서 PF-only은 평균 51.0%, 교사 추가 시 56.2%를 달성하며, evolved RS 파이프라인은 60.3%로 상승한다. 코딩은 PF-only 63.4%, 교사 포함 68.7%, 최종적으로 PF-Evolve + RS에서 69.9%를 달성했다.

핵심 아이디어 이해하기

문제 인식: 텍스트 기반의 스킬은 실제 실행 제어를 제공하지 못한다. 2) 해결 원리: HASP는 스킬을 PF로 변환하고, 현재 상태와 제안된 다음 행동을 입력으로 받아 개입 여부를 결정한 뒤 실행을 수정하거나 맥락을 주입한다. 3) 동작 방식의 핵심: PF는 두 가지 주된 개입 방식인 ACTION 수정(MODIFY_ACTION)과 CONTEXT 주입(INJECT_CONTEXT)을 사용하며, Activation Predicate에 의해 트리거된다. 4) 신호 체계의 역할: 4가지 PF 신호를 결합해 개입의 타이밍과 형태, 유효성 및 효과를 평가하고 이를 정책화/internalization 혹은 라이브러리 진화에 연결한다. 5) 전체 효과: 실행 시점의 개입만으로도 성능이 향상되고, 후훈련으로의 내부화와 외부 PF 라이브러리의 진화를 통해 장기적으로 안정적 개선이 가능하다.

방법론

PF 인터페이스: PF는 should_activate(context, action_type, arg) -> bool 와 intervene(context, action_type, arg, teacher=None) -> Intervention를 구현한다. PF의 Intervention 타입은 MODIFY_ACTION, INJECT_CONTEXT, NOOP 중 하나이며, new_action_type/new_action_arg/context_text/reason/skill_id를 포함한다. PF Dispatcher는 현재 st와 orig_a_t를 받아 활성 PF를 선별하고 Γ 연산자를 통해 수정된 행동 ã_t, 수정된 맥락 c_t, fired PF들의 목록 κ_t를 산출한다. PF는 실패 사례에서 파생되며 실행 가능한 형태로 라이브러리에 추가된다. 인퍼런스 타임 HASP는 base policy πθ와 외부 툴킷 K를 활용해 PF를 순차적으로 적용한 후 수정된 행동을 다시 정책 루프로 보낸다. 포스트-트레이닝에서 PF 활성화 기록 et=(st, a_orig_t, ã_t, c_t, κ_t, ∆t)을 수집하고 At=(t_t, m_t, q_t, o_t) 4신호로 점수를 매겨 PF-score를 산출한다. 학습 경로는 SFT, RS, OPD 중 하나를 선택하며, PF-corrected trajectory를 학습 데이터로 사용한다. Self-improvement 단계에서 residual failures를 재분류해 후보 PF를 제안하고, Qexec(Qexec)와 Qteach(Qteach)의 임계치를 만족하는 PF만 라이브러리에 반영한다. datasets는 web-search, math, coding으로 구성되며 backbone으로 Qwen2.5-7B-Instruct를 사용하고 LoRA를 적용한다.

주요 결과

메인 벤치마크에서 inference-time PF 개입은 웹-검색 추론에서 평균 정확도 51.0%(PF-only)에서 교사 추가 시 56.2%로 상승. 라이브러리 내부화를 통한 post-training은 60.3% 웹-검색 평균에 이르는 성과를 보여주고, 수학에서 45.4%, 코딩에서 69.9%의 평균 pass@1를 달성한다. PF 트리거는 65.1%가 액션 레벨 개입, 34.9%가 맥락 레벨 개입으로 나타났다. PF 활성화는 decompose_complex_question, insufficient_exploration, answer_completeness 등에 집중되며, 신호의 각 구성 요소(timing, mode, correctness, outcome)가 전체 시스템 성능에 기여한다. Self-improvement는 50회 내외의 PF 버전을 생성하고, max_library_size를 50으로 제한하는 등의 필터링 원칙을 적용한다.

기술 상세

HF 논문 본문에 제시된 PF 설계 및 HASP 프레임워크의 구성 요소를 요약하였다. PF 인터페이스의 should_activate/ intervene, PF-Dispatcher의 역할, four-signal scoring, PF-Guided Rollout의 동작, post-training 경로(SFT/RS/OPD) 및 self-improvement 파이프라인의 단계, 실패 케이스의 클러스터링 및 실행 검증 절차를 포함한다.

한계점

제한점으로는 (1) PF 인터페이스의 현재 개선점(개입 형태의 한정성)으로 새로운 전략 발견에는 RL-형 탐색이 필요하다, (2) 핵심 벤치마크의 확장성 및 실제 상용 환경으로의 이전이 아직 불완전하다는 점, (3) PF의 스폰서된 진화가 너무 거칠거나 특정 도메인에 편향될 수 있음, (4) self-improvement 단계의 비용이 크고 게이트가 필요하다는 점 등이다.

실무 활용

HASP는 실행 가능한 PF를 통해 에이전트의 단기 의사결정을 즉시 개선하고, PF-생성 기록으로 후훈련 데이터 및 라이브러리 업데이트를 가능하게 한다. 이를 통해 프롬프트 텍스트 기반의 스킬에 비해 더 안정적이고 재현 가능한 개선을 달성한다.

실시간 웹 검색 에이전트의 신호-개입 관리
코드 생성 에이전트의 입력-출력 안정화
다단계 추론에서의 실패 패턴 자동화된 PF 생성
에이전트 라이브러리의 자동 진화 및 감독 가능한 업데이트

코드 공개 여부: 미확인

키워드

LLM AgentsSkill ProgramsProgram FunctionsguardrailsPF signalsself-improvementweb-search reasoningcoding