TL;DR
대형 언어 모델 기반의 다중 에이전트 시스템은 긴 수평(task-long)에서 실행되며 단 하나의 결정적 오류가 downstream 에이전트의 누적 작용으로 전체 실패로 번질 수 있다. 기존 연구는 이를 주로 사후(post-hoc)로 분석해 실패의 원인을 찾는 데 집중하지만, 실행 도중 개입할 수 있는 창을 놓친다. 본 논문은 온라인 감사(online auditing) 프레임워크를 제안하여 접두사(prefix) 수준에서 매 단계를 감시하고, 최초의 결정적 오류가 발생하는 시점에 경보를 발동하여 배포 시점에서의 개입 가능성을 연다. 이를 통해 실패의 루트를 조기에 차단하는 안전체인을 구축한다.
왜 중요한가
대형 언어 모델 기반의 다중 에이전트 시스템은 긴 수평(task-long)에서 실행되며 단 하나의 결정적 오류가 downstream 에이전트의 누적 작용으로 전체 실패로 번질 수 있다. 기존 연구는 이를 주로 사후(post-hoc)로 분석해 실패의 원인을 찾는 데 집중하지만, 실행 도중 개입할 수 있는 창을 놓친다. 본 논문은 온라인 감사(online auditing) 프레임워크를 제안하여 접두사(prefix) 수준에서 매 단계를 감시하고, 최초의 결정적 오류가 발생하는 시점에 경보를 발동하여 배포 시점에서의 개입 가능성을 연다. 이를 통해 실패의 루트를 조기에 차단하는 안전체인을 구축한다.
핵심 기여
온라인 auditing 정의 및 동기 제시
접근 방식 차이를 명확히 정의하고, 온라인에서의 continue/alarm 결정이 배포 안전에 미치는 영향을 강조한다.
AFTRAJ-2K 데이터셋 구축
Coding, Math, Agentic 도메인에 걸친 안전한 traj와 decisive error가 주어진 실패 traj를 다루는 코퍼스를 구성하고, 다중 LLM Judge로 step 수준의 결정적 오류를 주석화했다.
AgentForesight-7B 개발과 코스-투-파인 RL 학습
두 단계의 coarse-to-fine 학습으로 온라인 auditor를 훈련한다. Stage 1은 failure boundary에서 risk-anticipation prior를 학습하고, Stage 2는 what/where/who의 3축 보상으로 step-level localization을 정밀화한다.
AFTRAJ-2K 및 Who&When 벤치마크에서의 성능
AgentForesight-7B가 대형 proprietary 모델들을 상회하고 Exact-F1, ASS에서 크게 개선하며, Who&When 벤치에서도 일반화 성능이 확인된다.
배포-시간 개입 가능성을 여는 안전장치
온라인 auditing을 통해 실패가 확정되기 전에 개입 창을 확보하고, 모델 규모에 의존하지 않는 경량 auditor를 운영할 수 있다.
핵심 아이디어 이해하기
단계적 문제 정의에서 출발한다. 먼저 다중 에이전트 시스템에서 단 하나의 결정적 오류가 아래로 전이되어 전체 트랙션 실패를 야기하는 구조적 취약점을 확인한다. 이후 온라인 auditing의 아이디어를 도입해, 각 prefix에서 CONTINUE 또는 ALARM을 결정하도록 하고, 최초의 결정적 오류(k*, a*)를 정확히 식별하는 것이 목표다. Stage 1은 실패 경계(boundary) 근처의 안전한 prefix와 unsafe prefix 간의 차이를 학습하는 'failure-boundary alignment'를 통해 risk-anticipation prior를 얻고, Stage 2는 3축 보상(R: what, where, who)을 최적화하는 GRPO 기반 학습으로 정확한 step-localization을 달성한다. 이를 통해 prefix-restricted 관찰에서의 실시간 판단이 가능해지며, 3가지 축의 정교한 보상 설계가 오탐을 줄이고 위치 정확도를 높인다.
방법론
- AFTRAJ-2K 구축: Dsucc(성공 traj)와 Dfail(실패 traj)으로 구성하며, Dsafe는 ϕoutcome, ϕintegrity, ϕcoherence의 3단계 필터를 통과한 traj에 SAFE 라벨을 부여하고, Dinj_fail은 τ에 의도적으로 결정적 오류를 주입한다. Dnat_fail은 실패 traj에서Decisive Error를 Propose-Verfiy로 로컬라이즈하는 엔진으로 구성된다. 2) Stage 1 Boundary Alignment: unsafe traj의 kinj, akinj를 이용해 실패 경계의 전-경계와 후-경계 프롬프트를 구성하고, CONTINUE/ALARM의 구성을 대비시키는 BPPO를 사용한다. 3) Stage 2 Three-Axis Verdict Sharpening: ŷ=(k̂,â,r̂)로 구성된 verdict를 what(구조적 형식), where(정확도), who(담당자) 3축으로 평가하고, G(ŷ), rstep, ragent로 구성된 보상으로 GRPO를 수행한다. 4) 구현 및 학습 세부: πθ0를 기반으로 Stage 1에서 πθ1를 얻고, Stage 2에서 πref를 πθ1로 고정한 채 KL.Regularization을 이용해 업데이트한다. 5) 평가 프로토콜: Prefix-별로 CONTINUE/ALARM를 출력하고, unsafe traj에 대해 정확한 k̂와 â를 산출하도록 한다.
관련 Figure

배포 시점에서의 개입 가능성을 시각적으로 제시한다. 왼쪽은 post-hoc attribution의 한계, 오른쪽은 online auditing의 prefix-이하 평가와 개입 포인트를 보여준다.
Figure 1: Post-hoc 실패와 Online Auditing의 비교 다이어그램

Dsucc/Dfail, Dsafe, Dinj_fail, Dnat_fail의 흐름과 두 단계 학습 파이프라인이 연결되는 구조를 보여준다.
Figure 2: AFTRAJ-2K 구축 파이프라인 및 AgentForesight 교육 흐름

Stage 1의 boundary alignment와 Stage 2의 three-axis verdict sharpening를 포함한 학습 흐름을 다이어그램으로 제시한다.
Figure 2/Algorithm 2: AFTraj-2K와 AgentForesight-7B의 학습 아키텍처 개요
주요 결과
메인 results: AFTRAJ-2K에서 AgentForesight-7B는 66.44 Exact-F1, ASS 0.59로 상위 모델 대비 우수하다. Math/Coding/Agentic 도메인에서 각각 77.36/78.87/48.70의 Exact-F1을 기록하고, 도메인별 ASS도 0.96/0.18/0.54로 낮은 편이다. Stage 1만의 효과: 35.63의 Exact-F1, Stage 2만의 효과: 50.42의 Exact-F1로, 두 스테이지를 합친 경우 66.44로 상승한다. Who&When 벤치마크에서도 Step-Acc 57.69, Agent-Acc 73.08, ASS 1.62로 강력한 일반화 성능을 보였다. Deployment trade-off: FAR 2.37%와 Step-Acc 59.51%로 deployable 영역에 속하며, DeepSeek-V4-Pro는 FAR 43.2%, Step-Acc 53.99%로 한계가 존재한다. Case study: 2건의 사례에서 AgentForesight-7B가 Decisive Error Step을 더 정확히 식별하고, 다른 baselines의 한계를 보완하는 것을 확인한다.
관련 Figure

배포 시나리오에서 오탐률(FAR)과 단계 정확도(Step-Acc) 간 트레이드오프를 보여준다. AgentForesight-7B가 deployable 영역에 속함을 시사한다.
Figure 4: 모든Auditor의 배포-적합성(FAR vs Step-Acc) 비교 산점도

강력 Baseline들에 비해 AgentForesight-7B가 Decisive Error Step과 Responsible Agent를 더욱 정확히 식별하는 사례를 보여준다.
Figure 5: 온라인 감사(case study) 사례 비교 - DeepSeek-V4-Pro, Gemini-3-Flash, AgentForesight-7B

Late-committing decisive errors에서도 AgentForesight-7B가 정확한 step과 담당자를 식별할 수 있음을 보여주는 사례로, 다른 baselines가 놓친 지점을 강조한다.
Figure 7: Math 케이스 스터디 – decisve error를 Late commit에서 포착하는 사례
기술 상세
- 온라인 감사의 수학적 정의: 온라인 auditor ŷk=fonline(τ0:k) ∈ {CONTINUE} ∪ {ALARM} × {0,...,k} × N. 2) AFTRAJ-2K 구성: Dsucc, Dfail, Dsafe(ϕoutcome, ϕintegrity, ϕcoherence 필터), Dinj_fail, Dnat_fail. 3) Stage 1 BPPO: boundary-pair prompts으로 CONTINUE/ALARM 판단의 차이를 학습. 4) Stage 2 GRPO: three-axis reward R(ŷ,y*) = G(ŷ)·Rcontent(ŷ,y*)−ηG(1−G(ŷ))의 구조를 사용하며 πref를 Stage1 checkpoint로 고정하여 KL정규화 사용. 5) 실험 세부: AFTRAJ-2K에서 2.272개의 traj, 2×H200 훈련, 배치 구성, 토큰 길이 제한 등. 6) baselines: Llama-3.2-3B, Gemma-3-4B, Qwen-시리즈, GPT-4.1, DeepSeek-V4-Pro 등과 비교.
실무 활용
실무적으로 배포·운영 환경에서 Online auditing으로 개입 창을 열어 잠재적 위험을 차단하고, 런타임 안전성과 신뢰성을 높일 수 있다. 7B 규모의 auditor를 host와 함께 운용하되, 추가적 피드백 없이도 prefix-restricted 관찰 하에서 즉시 판단이 가능하다.
- 실서비스에서 다중 에이전트 파이프라인의 런타임 안전 모니터링
- 배포 전 파일럿에서의 프리런칭 안전성 확인
- 다중 도메인에서의 failure-robustness 평가 및 리스크 관리
- 런타임에 대한 경보 정책 튜닝(오탐 vs 미탐 밸런싱)
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.