에이전트 주도 안전 정합을 위한 실패 궤적 기반의 온-정책 자기 진화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

도구를 활용하는 LLM 에이전트의 안전성은 단일 응답의 안전성 평가로 충분치 않다. 실패 궤적을 활용해 다중 목표(보안, 유용성, 과도한 거부, 궤적 관리)를 동시에 개선하는 온-정책 학습 신호를 제공하고, PFPO로 안전성과 유용성 간의 균형을 유지한다. 이를 통해 실패 사례에서 얻은 구조화된 수리 정보를 정책 업데이트에 직접 반영할 수 있다.

왜 중요한가

도구를 활용하는 LLM 에이전트의 안전성은 단일 응답의 안전성 평가로 충분치 않다. 실패 궤적을 활용해 다중 목표(보안, 유용성, 과도한 거부, 궤적 관리)를 동시에 개선하는 온-정책 학습 신호를 제공하고, PFPO로 안전성과 유용성 간의 균형을 유지한다. 이를 통해 실패 사례에서 얻은 구조화된 수리 정보를 정책 업데이트에 직접 반영할 수 있다.

핵심 기여

Failure trajectories를 수리 감독으로 전환하는 온-정책 프레임워크(FATE)

현재 정책이 생성한 실패 궤적을 바탕으로 동일 정책이 제시하는 repair 후보를 verifier로 재평가하고, Pareto-front 필터링을 통해 다중 목표를 모두 고려한 학습 타깃으로 삼는 온-정책 학습 흐름을 제안한다.

Pareto-front Replay 기반 다중 목표 안전 학습

Feasibility 필터링, Pareto-front 투영, front-만의 타이-브레이크를 거쳐 PF(f)를 구성하고, 이 PF에 기대되는 학습 샘플만 q⋆t(a′|f)로 샘플링해 재생 버퍼 Rt를 구축한다.

PFPO를 이용한 다중 목표 최적화

Stage 1 SFT는 q⋆t로 구성된 감독 학습 타깃으로 정책을 미세조정하고, Stage 2 PFPO를 통해 그룹 보상(rPF)을 기준으로 그룹 상대 이점을 산출해 클리핑된 SURROGATE 목표로 정책을 추가로 개선한다.

실험적 검증: 다양한 백본과 스케일에서의 안전-유용성 개선

AgentDojo, AgentHarm, ATBench에서 PFPO 기반의 FATE가 다양한 모델 규모에서도 안전성을 강화하고 유용성을 보존하는지 확인한다. 2회 자기 진화 라운드에서 ASR 감소, HCR 감소, TSR/VRR 증가 등 안전-유용성 트레이드오프가 개선된다.

외부 안전 진단으로의 일반화

ATBench-C/ATBench-F에서 Qwen3-8B-Instruct+FATE 조합이 기존 baselines를 상회하는 외부 트래젝토리 진단 성능을 보이며, 실행 외 환경에서도 트래젝토리 수준의 안전 단서를 포착한다.

한계점

verifier의 품질 의존성에 의한 한계, 현재 정책이 제시하는 repair 후보의 질에 따라 성능이 좌우될 수 있음. K 개의 repair 후보를 샘플링하면 계산 비용이 증가하고, 더 복잡한 실패 분포에서는 더 많은 실패 샘플과 보정이 필요하다. AgentDojo, AgentHarm, ATBench 같은 벤치마크에 한정되어 일반화 가능성은 향후 확장 연구가 필요하다.

실무 활용

FATE는 실패 궤적을 통한 repair supervision을 온-정책으로 업데이트하는 자기 진화형 안전 학습 프레임워크다. PFPO로 다중 목표를 관리하며, 실패 궤적과 verifier 피드백을 결합해 안전성과 유용성을 균형 있게 개선한다.

다중 도메인에서의 도구 사용 에이전트의 안전 강화
대규모 언어 모델의 자가 개선 루프에서의 안전성 유지
실험실 내 안전-유용성 트레이드오프 관리 및 재현성 확보

코드 공개 여부: 공개

코드 저장소 보기

키워드

tool-using LLM agentsverifier-scored failuresrepair supervisiontrajectory-level informationPareto-Front Policy Optimization (PFPO)trajectory-safety diagnosis