핵심 요약
LLM 에이전트가 복잡한 도구 사용 작업을 수행할 때, 작업이 완전히 끝난 뒤에야 실패를 확인하면 이미 돌이킬 수 없는 손실이 발생할 수 있다. 이 논문은 에이전트의 실행 기록(Trace)을 실시간으로 분석하여 실패 가능성을 미리 경고함으로써 조기에 개입할 수 있는 실용적인 모니터링 기술을 제공한다.
왜 중요한가
LLM 에이전트가 복잡한 도구 사용 작업을 수행할 때, 작업이 완전히 끝난 뒤에야 실패를 확인하면 이미 돌이킬 수 없는 손실이 발생할 수 있다. 이 논문은 에이전트의 실행 기록(Trace)을 실시간으로 분석하여 실패 가능성을 미리 경고함으로써 조기에 개입할 수 있는 실용적인 모니터링 기술을 제공한다.
핵심 기여
PrefixGuard 프레임워크 제안
다양한 형식의 에이전트 실행 기록을 입력받아 실시간으로 실패 위험 점수를 계산하는 신경-심볼릭(Neural-symbolic) 모니터 합성 프레임워크이다.
StepView 어댑터 도입
브라우저, 대화, 코딩 등 서로 다른 환경의 실행 로그를 LLM을 활용해 오프라인에서 정형화된 필드(metadata, action, result 등)로 변환하는 결정론적 어댑터를 생성한다.
미분 가능한 이벤트 추상화 계층
정형화된 텍스트 데이터를 학습 가능한 이산적 이벤트 알파벳으로 매핑하여, 모니터가 실패와 직결된 핵심 신호를 포착하도록 한다.
관측 가능성 천장(Observability Ceiling) 이론 정립
현재까지의 실행 기록만으로 실패를 예측할 수 있는 이론적 한계치를 정의하여 모니터의 성능을 객관적으로 진단할 수 있는 지표를 제시한다.
핵심 아이디어 이해하기
기존의 에이전트 모니터링은 사람이 직접 이벤트 규칙을 작성해야 하거나, 매 단계마다 비용이 비싼 LLM을 호출하여 판단해야 하는 한계가 있었다. PrefixGuard는 에이전트의 실행 기록을 임베딩(Embedding) 공간으로 투사한 뒤, 이를 다시 유한한 개수의 '이벤트 기호'로 압축하는 방식을 취한다. 이는 마치 복잡한 문장을 핵심 키워드 몇 개로 요약하여 상황을 파악하는 것과 유사하다.
이 과정에서 Gumbel-Softmax 기법을 활용하여 이산적인 기호 선택 과정을 미분 가능하게 만듦으로써, 전체 네트워크가 실패 예측이라는 최종 목표를 위해 최적의 이벤트 알파벳을 스스로 학습하게 한다. 결과적으로 모니터는 과거의 실행 맥락을 기억하며 현재 상태가 실패로 흐르고 있는지 실시간으로 점수를 매길 수 있게 된다.
특히 학습된 신경망 모니터로부터 결정적 유한 오토마타(DFA)를 추출함으로써, 블랙박스 형태의 딥러닝 모델이 왜 위험 신호를 보냈는지 사람이 직접 상태 전이도를 보고 검증할 수 있는 투명성을 확보했다.
방법론
PrefixGuard는 크게 세 단계로 구성된다. 첫 번째 단계인 StepView는 오프라인에서 LLM을 사용하여 원시 로그를 정형화된 레코드로 변환하는 규칙을 생성한다. [원시 로그 텍스트 입력] → [LLM 기반 패턴 추출] → [결정론적 파서 생성] → [metadata, action, result 등 7개 필드로 구성된 레코드 출력] 과정을 거치며, 배포 시에는 LLM 없이 고정된 파서만 사용한다.
두 번째 단계는 TF-IDF Step Encoder와 이벤트 추상화 계층이다. 정형화된 레코드를 텍스트로 직렬화한 후 TF-IDF를 통해 벡터화한다. [4096 차원의 TF-IDF 벡터 입력] → [2층 MLP 연산] → [Gumbel-Softmax 적용] → [K개의 잠재 기호 중 하나에 대한 확률 분포 출력] 순으로 계산되며, 이를 통해 텍스트의 의미가 이산적인 이벤트 기호로 변환된다.
세 번째 단계는 Prefix-Warning Monitor이다. 추상화된 기호 시퀀스를 GRU나 Transformer와 같은 순차 모델에 입력하여 매 단계마다 위험 점수(st)를 계산한다. [이벤트 기호 시퀀스 입력] → [GRU/Transformer 상태 업데이트] → [Sigmoid 활성화 함수 적용] → [0에서 1 사이의 실패 위험 확률 출력] 과정을 통해 실시간 모니터링을 수행한다.
관련 Figure

원시 에이전트 트레이스가 StepView를 거쳐 정형화되고, TF-IDF 인코딩과 이벤트 추상화 계층을 지나 최종적으로 GRU/Transformer 모니터에서 위험 점수를 출력하는 과정을 보여준다. 하단에는 선택적인 DFA 추출 과정이 명시되어 있다.
PrefixGuard의 전체 파이프라인 다이어그램
주요 결과
WebArena, τ2-Bench, SkillsBench, TerminalBench 등 4가지 벤치마크에서 실험을 진행했다. PrefixGuard-GRU 모델은 각각 0.900, 0.696, 0.533, 0.557의 AUPRC를 기록하며, 원시 텍스트를 그대로 사용한 대조군 대비 평균 +0.137 AUPRC 향상을 보였다. 특히 WebArena에서는 0.900이라는 높은 점수를 기록하며 실패 징후를 매우 정확하게 포착했다.
LLM-as-judge 방식(GPT-5.4-mini 등)과의 비교에서도 PrefixGuard는 월등한 성능을 보였다. 최강의 LLM 판독기조차 동일한 조건에서 0.450 이하의 AUPRC에 머물렀는데, 이는 실시간 모니터링 작업이 단순한 문맥 이해를 넘어 도메인 특화된 시계열 통계 학습이 필요함을 시사한다.
Ablation Study 결과, WebArena는 실행 결과(result) 필드가 성능에 가장 큰 영향을 미쳤으며, TerminalBench는 상태(status) 정보가 핵심적인 것으로 나타났다. 또한, 추출된 DFA의 크기를 분석했을 때 WebArena는 29개의 상태만으로도 효율적인 감시가 가능했으나, 코딩 작업인 SkillsBench는 151개의 상태가 필요할 정도로 복잡도가 높았다.
관련 Figure

이론적인 AUPRC 한계선(곡선)과 실제 PrefixGuard 모델들의 성능(점)을 비교한다. WebArena는 이론적 한계에 근접한 높은 성능을 보이지만, Skills나 Terminal 벤치마크는 아직 개선 여지가 많음을 시각화한다.
관측 가능성 천장과 각 벤치마크별 모니터 성능 비교 그래프

PrefixGuard-GRU 모델이 4가지 데이터셋에서 보여주는 성능 지표를 상세히 나타낸다. WebArena(파란색)가 가장 우수한 분류 성능을 보이며, 다른 도메인에서도 무작위 기준선(점선)을 크게 상회함을 확인할 수 있다.
각 벤치마크별 Precision-Recall 곡선 및 ROC 곡선
기술 상세
PrefixGuard의 핵심은 미분 가능한 이벤트 추상화와 오프라인 어댑터 유도(Induction)의 결합이다. StepView는 배포 시 LLM 오버헤드를 제거하기 위해 오프라인에서만 LLM을 사용하여 정규표현식이나 문자열 처리 기반의 어댑터를 생성한다. 이는 이질적인 트레이스 형식을 통일된 스키마로 정규화하여 모델의 일반화 성능을 높인다.
이벤트 추상화 계층은 Gumbel-Softmax를 통해 이산적인 심볼 할당을 수행하며, 이는 후속하는 모니터 백엔드(GRU, Transformer, FSM)와 종단간(End-to-end)으로 학습된다. 손실 함수는 Binary Cross-Entropy와 심볼 붕괴를 방지하기 위한 Entropy Regularizer를 결합하여 사용한다. 학습이 완료된 후에는 RPNI(Regular Positive and Negative Inference) 알고리즘을 사용하여 신경망의 상태 전이를 DFA로 추출함으로써 감사 가능한(Auditable) 모델을 제공한다.
한계점
PrefixGuard는 실행 기록에 명시적인 실패 증거가 나타나야만 경고를 보낼 수 있다. 즉, 겉으로는 정상적으로 보이지만 논리적으로 잘못된 방향으로 가고 있는 '숨겨진 실패'는 관측 가능성 천장(Observability Ceiling) 이론에 따라 탐지가 불가능하다. 또한, 추출된 DFA가 복잡한 도메인에서는 수백 개의 상태로 확장되어 사람이 한눈에 이해하기 어려워질 수 있다는 한계가 있다.
실무 활용
PrefixGuard는 실시간으로 에이전트의 실패를 감시해야 하는 상용 환경에서 저비용·고효율 모니터로 활용될 수 있다.
- 자율 웹 브라우징 에이전트의 무한 루프나 페이지 오류 실시간 감지
- 고객 지원 대화 에이전트가 정책을 벗어나거나 해결 불가능한 상태에 빠졌을 때 상담원 연결 알림
- 자동화된 소프트웨어 엔지니어링 에이전트의 잘못된 코드 수정 시도 조기 차단
- CLI 기반 시스템 관리 에이전트의 위험한 명령어 실행 전 경고 발생
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.