AgentForesight: 다중 에이전트 시스템에서 조기 실패 예측을 위한 온라인 감사

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

대형 언어 모델 기반의 다중 에이전트 시스템은 긴 수평(task-long)에서 실행되며 단 하나의 결정적 오류가 downstream 에이전트의 누적 작용으로 전체 실패로 번질 수 있다. 기존 연구는 이를 주로 사후(post-hoc)로 분석해 실패의 원인을 찾는 데 집중하지만, 실행 도중 개입할 수 있는 창을 놓친다. 본 논문은 온라인 감사(online auditing) 프레임워크를 제안하여 접두사(prefix) 수준에서 매 단계를 감시하고, 최초의 결정적 오류가 발생하는 시점에 경보를 발동하여 배포 시점에서의 개입 가능성을 연다. 이를 통해 실패의 루트를 조기에 차단하는 안전체인을 구축한다.

왜 중요한가

대형 언어 모델 기반의 다중 에이전트 시스템은 긴 수평(task-long)에서 실행되며 단 하나의 결정적 오류가 downstream 에이전트의 누적 작용으로 전체 실패로 번질 수 있다. 기존 연구는 이를 주로 사후(post-hoc)로 분석해 실패의 원인을 찾는 데 집중하지만, 실행 도중 개입할 수 있는 창을 놓친다. 본 논문은 온라인 감사(online auditing) 프레임워크를 제안하여 접두사(prefix) 수준에서 매 단계를 감시하고, 최초의 결정적 오류가 발생하는 시점에 경보를 발동하여 배포 시점에서의 개입 가능성을 연다. 이를 통해 실패의 루트를 조기에 차단하는 안전체인을 구축한다.

핵심 기여

온라인 auditing 정의 및 동기 제시

접근 방식 차이를 명확히 정의하고, 온라인에서의 continue/alarm 결정이 배포 안전에 미치는 영향을 강조한다.

AFTRAJ-2K 데이터셋 구축

Coding, Math, Agentic 도메인에 걸친 안전한 traj와 decisive error가 주어진 실패 traj를 다루는 코퍼스를 구성하고, 다중 LLM Judge로 step 수준의 결정적 오류를 주석화했다.

AgentForesight-7B 개발과 코스-투-파인 RL 학습

두 단계의 coarse-to-fine 학습으로 온라인 auditor를 훈련한다. Stage 1은 failure boundary에서 risk-anticipation prior를 학습하고, Stage 2는 what/where/who의 3축 보상으로 step-level localization을 정밀화한다.

AFTRAJ-2K 및 Who&When 벤치마크에서의 성능

AgentForesight-7B가 대형 proprietary 모델들을 상회하고 Exact-F1, ASS에서 크게 개선하며, Who&When 벤치에서도 일반화 성능이 확인된다.

배포-시간 개입 가능성을 여는 안전장치

온라인 auditing을 통해 실패가 확정되기 전에 개입 창을 확보하고, 모델 규모에 의존하지 않는 경량 auditor를 운영할 수 있다.

핵심 아이디어 이해하기

단계적 문제 정의에서 출발한다. 먼저 다중 에이전트 시스템에서 단 하나의 결정적 오류가 아래로 전이되어 전체 트랙션 실패를 야기하는 구조적 취약점을 확인한다. 이후 온라인 auditing의 아이디어를 도입해, 각 prefix에서 CONTINUE 또는 ALARM을 결정하도록 하고, 최초의 결정적 오류(k*, a*)를 정확히 식별하는 것이 목표다. Stage 1은 실패 경계(boundary) 근처의 안전한 prefix와 unsafe prefix 간의 차이를 학습하는 'failure-boundary alignment'를 통해 risk-anticipation prior를 얻고, Stage 2는 3축 보상(R: what, where, who)을 최적화하는 GRPO 기반 학습으로 정확한 step-localization을 달성한다. 이를 통해 prefix-restricted 관찰에서의 실시간 판단이 가능해지며, 3가지 축의 정교한 보상 설계가 오탐을 줄이고 위치 정확도를 높인다.

방법론

AFTRAJ-2K 구축: Dsucc(성공 traj)와 Dfail(실패 traj)으로 구성하며, Dsafe는 ϕoutcome, ϕintegrity, ϕcoherence의 3단계 필터를 통과한 traj에 SAFE 라벨을 부여하고, Dinj_fail은 τ에 의도적으로 결정적 오류를 주입한다. Dnat_fail은 실패 traj에서Decisive Error를 Propose-Verfiy로 로컬라이즈하는 엔진으로 구성된다. 2) Stage 1 Boundary Alignment: unsafe traj의 kinj, akinj를 이용해 실패 경계의 전-경계와 후-경계 프롬프트를 구성하고, CONTINUE/ALARM의 구성을 대비시키는 BPPO를 사용한다. 3) Stage 2 Three-Axis Verdict Sharpening: ŷ=(k̂,â,r̂)로 구성된 verdict를 what(구조적 형식), where(정확도), who(담당자) 3축으로 평가하고, G(ŷ), rstep, ragent로 구성된 보상으로 GRPO를 수행한다. 4) 구현 및 학습 세부: πθ0를 기반으로 Stage 1에서 πθ1를 얻고, Stage 2에서 πref를 πθ1로 고정한 채 KL.Regularization을 이용해 업데이트한다. 5) 평가 프로토콜: Prefix-별로 CONTINUE/ALARM를 출력하고, unsafe traj에 대해 정확한 k̂와 â를 산출하도록 한다.

주요 결과

메인 results: AFTRAJ-2K에서 AgentForesight-7B는 66.44 Exact-F1, ASS 0.59로 상위 모델 대비 우수하다. Math/Coding/Agentic 도메인에서 각각 77.36/78.87/48.70의 Exact-F1을 기록하고, 도메인별 ASS도 0.96/0.18/0.54로 낮은 편이다. Stage 1만의 효과: 35.63의 Exact-F1, Stage 2만의 효과: 50.42의 Exact-F1로, 두 스테이지를 합친 경우 66.44로 상승한다. Who&When 벤치마크에서도 Step-Acc 57.69, Agent-Acc 73.08, ASS 1.62로 강력한 일반화 성능을 보였다. Deployment trade-off: FAR 2.37%와 Step-Acc 59.51%로 deployable 영역에 속하며, DeepSeek-V4-Pro는 FAR 43.2%, Step-Acc 53.99%로 한계가 존재한다. Case study: 2건의 사례에서 AgentForesight-7B가 Decisive Error Step을 더 정확히 식별하고, 다른 baselines의 한계를 보완하는 것을 확인한다.

기술 상세

온라인 감사의 수학적 정의: 온라인 auditor ŷk=fonline(τ0:k) ∈ {CONTINUE} ∪ {ALARM} × {0,...,k} × N. 2) AFTRAJ-2K 구성: Dsucc, Dfail, Dsafe(ϕoutcome, ϕintegrity, ϕcoherence 필터), Dinj_fail, Dnat_fail. 3) Stage 1 BPPO: boundary-pair prompts으로 CONTINUE/ALARM 판단의 차이를 학습. 4) Stage 2 GRPO: three-axis reward R(ŷ,y*) = G(ŷ)·Rcontent(ŷ,y*)−ηG(1−G(ŷ))의 구조를 사용하며 πref를 Stage1 checkpoint로 고정하여 KL정규화 사용. 5) 실험 세부: AFTRAJ-2K에서 2.272개의 traj, 2×H200 훈련, 배치 구성, 토큰 길이 제한 등. 6) baselines: Llama-3.2-3B, Gemma-3-4B, Qwen-시리즈, GPT-4.1, DeepSeek-V4-Pro 등과 비교.

실무 활용

실무적으로 배포·운영 환경에서 Online auditing으로 개입 창을 열어 잠재적 위험을 차단하고, 런타임 안전성과 신뢰성을 높일 수 있다. 7B 규모의 auditor를 host와 함께 운용하되, 추가적 피드백 없이도 prefix-restricted 관찰 하에서 즉시 판단이 가능하다.

실서비스에서 다중 에이전트 파이프라인의 런타임 안전 모니터링
배포 전 파일럿에서의 프리런칭 안전성 확인
다중 도메인에서의 failure-robustness 평가 및 리스크 관리
런타임에 대한 경보 정책 튜닝(오탐 vs 미탐 밸런싱)

코드 공개 여부: 공개

코드 저장소 보기

키워드

online auditing (온라인 감사)AFTRAJ-2K (AFTRAJ-2K 데이터셋)AgentForesight-7B (에이전트포사이트-7B)BPPO (Boundary-Pair Preference Optimization)GRPO (Group Relative Policy Optimization)Who&When (Who&When 벤치마크)decisive error (결정적 오류)prefix-level supervision (접두사 수준 감독)