TL;DR
도구를 활용하는 LLM 에이전트의 안전성은 단일 응답의 안전성 평가로 충분치 않다. 실패 궤적을 활용해 다중 목표(보안, 유용성, 과도한 거부, 궤적 관리)를 동시에 개선하는 온-정책 학습 신호를 제공하고, PFPO로 안전성과 유용성 간의 균형을 유지한다. 이를 통해 실패 사례에서 얻은 구조화된 수리 정보를 정책 업데이트에 직접 반영할 수 있다.
왜 중요한가
도구를 활용하는 LLM 에이전트의 안전성은 단일 응답의 안전성 평가로 충분치 않다. 실패 궤적을 활용해 다중 목표(보안, 유용성, 과도한 거부, 궤적 관리)를 동시에 개선하는 온-정책 학습 신호를 제공하고, PFPO로 안전성과 유용성 간의 균형을 유지한다. 이를 통해 실패 사례에서 얻은 구조화된 수리 정보를 정책 업데이트에 직접 반영할 수 있다.
핵심 기여
Failure trajectories를 수리 감독으로 전환하는 온-정책 프레임워크(FATE)
현재 정책이 생성한 실패 궤적을 바탕으로 동일 정책이 제시하는 repair 후보를 verifier로 재평가하고, Pareto-front 필터링을 통해 다중 목표를 모두 고려한 학습 타깃으로 삼는 온-정책 학습 흐름을 제안한다.
Pareto-front Replay 기반 다중 목표 안전 학습
Feasibility 필터링, Pareto-front 투영, front-만의 타이-브레이크를 거쳐 PF(f)를 구성하고, 이 PF에 기대되는 학습 샘플만 q⋆t(a′|f)로 샘플링해 재생 버퍼 Rt를 구축한다.
PFPO를 이용한 다중 목표 최적화
Stage 1 SFT는 q⋆t로 구성된 감독 학습 타깃으로 정책을 미세조정하고, Stage 2 PFPO를 통해 그룹 보상(rPF)을 기준으로 그룹 상대 이점을 산출해 클리핑된 SURROGATE 목표로 정책을 추가로 개선한다.
실험적 검증: 다양한 백본과 스케일에서의 안전-유용성 개선
AgentDojo, AgentHarm, ATBench에서 PFPO 기반의 FATE가 다양한 모델 규모에서도 안전성을 강화하고 유용성을 보존하는지 확인한다. 2회 자기 진화 라운드에서 ASR 감소, HCR 감소, TSR/VRR 증가 등 안전-유용성 트레이드오프가 개선된다.
외부 안전 진단으로의 일반화
ATBench-C/ATBench-F에서 Qwen3-8B-Instruct+FATE 조합이 기존 baselines를 상회하는 외부 트래젝토리 진단 성능을 보이며, 실행 외 환경에서도 트래젝토리 수준의 안전 단서를 포착한다.
한계점
verifier의 품질 의존성에 의한 한계, 현재 정책이 제시하는 repair 후보의 질에 따라 성능이 좌우될 수 있음. K 개의 repair 후보를 샘플링하면 계산 비용이 증가하고, 더 복잡한 실패 분포에서는 더 많은 실패 샘플과 보정이 필요하다. AgentDojo, AgentHarm, ATBench 같은 벤치마크에 한정되어 일반화 가능성은 향후 확장 연구가 필요하다.
실무 활용
FATE는 실패 궤적을 통한 repair supervision을 온-정책으로 업데이트하는 자기 진화형 안전 학습 프레임워크다. PFPO로 다중 목표를 관리하며, 실패 궤적과 verifier 피드백을 결합해 안전성과 유용성을 균형 있게 개선한다.
- 다중 도메인에서의 도구 사용 에이전트의 안전 강화
- 대규모 언어 모델의 자가 개선 루프에서의 안전성 유지
- 실험실 내 안전-유용성 트레이드오프 관리 및 재현성 확보
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.