Conformal Agent Error Attribution(컨포멀 에이전트 오류 귀속)

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

다중 에이전트 시스템에서의 실패 원인을 단일 지점으로 특정하기 어렵다. 본 논문은 conformal prediction을 이용해 finite-sample, distribution-free 커버리지를 보장하는 예측 집합을 제시하고, 연속 데이터 구조에 맞춘 filtration-based CP 알고리즘으로 결정적 오류를 연속 구간으로 국한한다. 이를 통해 인간·자동 롤백 모두에서 오류 위치를 더 정확하게 파악하고, 필요한 경우 얼른 재시동해 자체 수정이 가능해진다.

왜 중요한가

핵심 기여

Leaf-to-Root CRSVP 확장

트리 기반의 CRSVP를 에이전트 궤적에 적용해 연속 구간으로 항상 Contiguous한 예측 집합을 산출하고, 계층형 분류에서의 컨포멀 스코어를 궤적 노드에 매핑한다.

Left/Right Filtration 도입

Left Filtration(LF)과 Right Filtration(RF)를 도입해 gLF, gRF의 점수를 임계값 q 아래로 유지하는 longest suffix/prefix를 선택한다. SLF(x, y*)를 정의해 y*가 포함될 최소 threshold를 산출하고, q_hat으로 예측 집합을 구성한다.

Two-Way Filtration의 제안

LF와 RF의 교집합을 이용한 Two-Way Filtration(TWF)을 제시하고 STWF(x, y*)를 max(SLF,SRF)로 표현해 중간 위치의 오류도 정확히 캡처한다.

LLM 기반 점수 기초의 다양한 평가

Naive LLM, Role-prompted LLM, Fine-tuned LLM(Qwen3-1.7B)과 같은 세 가지 규칙형/학습형 평가자들로 step-level 점수를 생성하고 set-level 점수로 집계해 CP 알고리즘과 결합한다.

Conformal Rollbacks의 자동화

컨포멀 세트를 이용해 실패한 궤적을 세트의 첫 단계까지 롤백하고 실패 원인을 포함한 정보를 프롬프트에 반영해 재시도한다.

핵심 아이디어 이해하기

확률론적 불확실성의 모델링: conformal prediction은 교환가능성 가정 하에 calibration 데이터로 q_hat를 만들고 xn+1에 대해 y*가 C(xn+1; q_hat)에 포함될 확률을 보장한다. 2) 연속 데이터에 대한 세트 예측: 다수의 CP 알고리즘은 포지션 단일 클래스 예측이 아니라 연속 구간의 예측 집합을 생성하도록 설계되어, 에이전트 궤적에서 decisive error를 효과적으로 국한한다. 3) filtration 기반 확장: LF/RF/TWF로 suffix/prefix를 확장적으로 탐색해 ground-truth를 포함하는 가장 짧은 연속 구간을 찾고, 이로써 필요한 계산 비용을 감소시키고 정확도도 유지한다. 4) 실용적 응용: 컨포멀 세트는 인간-주도 디버깅과 자동 롤백 모두에 적용 가능하며, 롤백의 커버리지 보장을 통해 decisive error를 충분히 포착하는 지점을 재시동 시점으로 삼아 시스템이 스스로 수정하도록 돕는다.

방법론

Vanilla Conformal Prediction(VCP): x의 각 step을 분류 문제로 취급, S(x, y) 비적합도 점수를 이용해 calibration 데이터의 ⌈(n+1)(1−α)⌉ 번째 분위수 q_hat를 구하고, xn+1에 대해 S(xn+1, y) ≤ q_hat인 y들로 C(xn+1; q_hat) 구성. [입력] xn+1, y; [계산] Si의 분위수 계산; [결과] y가 포함될 확률 ≥ 1−α. - Leaf-to-Root CRSVP: 이진 트리 T로 궤적을 매핑, gCRSVP로 leaf를 가장 가능성 높은 노드로 선택, y가 해당 노드에 있으면 점수로 반환하고, 없으면 상향 traversal으로 첫 노드에 도달할 때까지 확장. 예측 집합은 트리의 한 노드에 대응하는 연속 구간이며, 커버리지는 1−α를 보장한다. - Left Filtration(LF): x의 왼쪽에서 차례로 제거하며 gLF가 임계값 q 이하가 되면 남은 suffix를 선택하고, SLF(x, y)는 이 suffix에서 y의 최소 gLF 값이다. - Right Filtration(RF): RF는 앞서 왼쪽 제거의 반대 방향으로 작동하여 prefix를 선택한다. - Two-Way Filtration(TWF): FTWF(x; q) = FLF(x; q) ∩ FRF(x; q)로, y가 포함되려면 두 방향 모두에서 임계치를 충족해야 한다. STWF(x, y*) = inf q { y* ∈ FTWF(x; q) }이며 STWF = max(SLF, SRF)로도 표현 가능하다. - 이론적 보장: (xi, y*i) 독립적이지 않더라도 교환 가능성 가정 하에 q_hat를 정의하고, 예측 집합 CTWF/CLF/CLFV의 커버리지는 1−α를 하한으로 가진다. - 평가: Who&When, GSM8k, MATH 데이터에서 EC(에측 집합이 deciisive error를 포함한 빈도)와 RR(제거율, 궤적 길이 대비 예측 집합의 길이) 측정. - 실험: Naive LLM(gpt-4o-mini), Role-prompted, Fine-tuned(Qwen3-1.7B) 세 가지 scoring 방법 비교. - 롤백: 컨포멀 세트를 이용해 궤적의 시작점으로 롤백하고 재시도해 최종 결과를 수정하는 자동 롤백 흐름을 제시.

주요 결과

메인 벤치마크 커버리지: 1−α를 하한으로, VCP, RF, TWF는 상한 보장과 커버리지 유지; CRSVP는 낮은 α 영역에서 상한 보장을 제공하지 않으나 커버리지는 여전히 해석 가능. Who&When에서 결정적 오류가 궤적의 초기 위치에 집중되는 분포에서 RF가 가장 강력하게 작동, LF는 오른쪽 집중 데이터에서 강함, TWF는 중간 위치의 오류를 분리하는 데 유리. - 점수 함수 성능: Table 2의 수치에서 pre-trained GPT-4o-mini(0.505 AUROC, 0.369 AUPRC, 0.509 Accuracy) 및 Role-prompted(0.554 AUROC, 0.161 AUPRC, 0.164 Accuracy)보다 Fine-tuned(Qwen3-1.7B) 모델이 가장 우수한 성능을 보이며 AUROC 0.762, AUPRC 0.382, Accuracy 0.731로 나타난다. - 제거율(= conformal 세트의 평균 길이 감소도) 1−α=0.8에서의 대조: Left Filtering, Right Filtering, Two-Way의 평균 제거율은 각각 0.21, 0.34, 0.39 등으로, RF/LF/TWF는 데이터 분포에 따라 다르게 작동하며 단순 VCP/CRSVP보다 더 예측 집합 길이를 줄일 수 있다. - 추론 비용: GSM8k 변형에서 NFE(강한 grf) 기준, Left Filtering은 Right Dense에서 3.08회, Left Dense에서 7.50회 등으로 큰 차이를 보였고, Right Filtering은 Right Dense에서 7.09회까지 증가한다. CRSVP/VCP/TWF는 ℓ회(예: 9) 수준의 평가를 필요로 하는 반면 LF는 한 방향에서 threshold를 빠르게 만날 수 있어 비용을 절감한다. - 자동 롤백: Left Filtering 기반 컨포멀 세트의 롤백은 Top-1 대비 소폭의 차이로 성능이 우수하며, 80% 커버리지에서 커버리지가 보장되므로 처음 위치로 돌아가 재시도하는 방식의 자동 롤백이 신뢰할 수 있다. Left Dense에서의 Success Rate은 0.76±0.05, Coverage 0.92±0.03, Cost 0.83±0.02(Top-1 기준). Mid Dense와 Right Dense에서도 VCP/LF의 조합이 각각 다른 장점을 보인다.

기술 상세

전체 아키텍처: x는 에이전트 궤적, y는 결정적 오류. S(x,y) 기반의 비적합도 점수로 벤치마크를 구성하고, q_hat를 calibration 데이터로 계산한다. - Vanilla CP: 급격한 수치 계산 없이 y를 예측 집합에 포함시키는 일반 CP. - CRSVP: 트리 구조에 기반한 계층적 분류에서 leaf를 추정, 예측 집합은 트리의 노드 하나에 대응하며 항상 contiguous. - LF/RF: 각 방향으로 suffix/prefix를 확장해 y를 포함하는 가장 긴 구간을 선택하는 점수화 및 예측 집합 구성. - TWF: 교집합을 사용해 LF와 RF의 동시에 충족하는 구간만 남겨 예측. - 커버리지 보장: {(xi, yi)} 및 (xn+1, yn+1)가 exchangeable일 때, CLF/CRSVP/CTWF의 예측 집합은 1−α의 하한 커버리지를 가진다. - 구현상의 요소: gLF/gRF의 monotonicity를 확보해 set-level 점수의 계산을 간단히 하며, g를 여러 LLM 구성으로 평가하고 합산하는 배치를 사용한다. - 롤백: 컨포멀 세트의 첫 위치를 롤백 지점으로 삼아 실패 트레이스를 재생성한다.

한계점

데이터의 교환가능성 가정 필요, 데이터 분포 변화에 대한 확장 가능성은 향후 연구 필요, 실패 궤적에 단일 결정적 오류만 존재하는 설정으로 기술되어 있으며 다중 오류 상황으로 확장 가능하나 추가 연구 필요.

실무 활용

에이전트 실패를 구체적으로 위치시키는 CP 기반 예측 집합을 이용해 디버깅 및 자동 롤백 파이프라인의 신뢰성과 효율성을 높인다.

에이전트 디버깅에서 실패 지점을 한 번에 확인하고 수정한다
실행 도중 종료된 MAS 트랜잭션의 자동 롤백으로 재시작한다

코드 공개 여부: 비공개

키워드

Conformal Prediction(콘포멀 예측)Error Attribution(오류 귀속)Multi-agent Systems(다중 에이전트 시스템)Sequential Data(연속 데이터)Agent Trajectories(에이전트 궤적)Prediction Sets(예측 집합)Uncertainty Quantification(불확실성 정량)