TL;DR
binary 패스 여부만으로는 행위의 질 차이를 드러내지 못한다. AGENTLENS는 프로세스 수준에서 트레이스의 품질을 평가해 모델 간 차이와 실패의 원인을 밝히고, 안전한 배포와 품질 높은 시演을 돕는 지렛대를 제공한다.
왜 중요한가
binary 패스 여부만으로는 행위의 질 차이를 드러내지 못한다. AGENTLENS는 프로세스 수준에서 트레이스의 품질을 평가해 모델 간 차이와 실패의 원인을 밝히고, 안전한 배포와 품질 높은 시演을 돕는 지렛대를 제공한다.
핵심 기여
AGENTLENS-Bench: 첫 프로세스 주도 SWE-에이전트 트레이젝토리 데이터셋
47개 PTA eligible SWE-bench Verified 작업에서 1,815 트레이젝토리를 수집, 40-column feature vectors, ground-truth PTA, waste/다른 차이점 주석, 및 태스크별 PTA를 포함한 다차원 분석 프레임워크를 제공한다.
Lucky Pass taxonomy와 고유한 실패 메커니즘의 발견
1,136개의 통과 트레이젝토리 중 10.7%가 올바른 패치를 비형상적 프로세스(weak-process)로 달성하는 Lucky Pass로 분류된다. C1–C5 다섯 분류로 나뉘며, C2와 C3가 전체의 68.0%를 차지한다.
상황 인식형 의도-단계 라벨링
탐색/구현/검증/오케스트레이션의 4가지 단계로 상태를 라벨링하는 트라이얼-히스토리 기반의 라벨링 시스템을 도입하고, seven-annotator κ=0.933의 합의도를 달성했다.
PTA 기반의 프로세스 참조와 품질 점수화
다수의 passing trajectory를 하나의 task-level PTA로 병합해 known-good 솔루션 공간을 구성하고, 네 가지 신호(구조적 정합, 집합 커버리지, 코히런스, 시간적 프로파일)로 점수를 매겨 종합 점수를 산출한다.
오픈 소스 도구의 향후 공개 계획
AGENTLENS-Bench, AGENTLENS SDK, 웹 인터페이스를 공개해 ATIF 로그, OpenHands traces와 연동한 프로세스-aware 분석을 가능하게 한다.
핵심 아이디어 이해하기
출발점: SWE-bench의 이진 패스 평가가 행위의 질을 충분히 반영하지 못한다는 한계가 있다. 예를 들어 같은 이슈를 해결하는 두 에이전트가 하나는 탐색을 최소화하고 효과적으로 patch를 적용하는 반면, 다른 하나는 반복적 재시도에 의존해 성공하는 경우에도 동일한 패스 레이블을 받는다. 이로 인해 데이터셋은 “무엇을” 해결했는지의 결과만 보여주고, “어떻게 해결했는지”의 프로세스 정보를 놓친다. 정의: AGENTLENS는 네 가지 신호로 구성된 프레임워크로, 구조적 매칭(Φstruct), 집합 커버리지(Φcov), 코히런스(Φcoh), 시간적 프로파일(Φtemp)을 조합해 0–100의 품질 점수를 산출한다. PTA 기반 참조 그래프를 사용해 같은 task의 여러 passing trajectories를 병합하고, 의도-단계 라벨링으로 Exploration, Implementation, Verification, Orchestration의 시퀀스를 구성한다. 이로써 동일한 패스라도 직접적이고 효율적인 해결과 불필요한 재시도, 탐색 중심의 해결을 구분할 수 있다. 결과적으로 1) 47개 작업의 1,815 트레이젝토리에 대해 10.7%의 Lucky Pass 존재를 확인하고, 2) eight 모델 백엔드에서 품질 기반 순위가 PR 순위와 다른 경향을 보이며, 3) 배포 안전성과 학습 데이터 선별에 프로세스 질이 중요한 지표가 됨을 보인다.
방법론
- Raw logs를 상태 문자열로 변환하고, 4개 축에 대한 intent-stage labeling을 수행한다. 2) 다른 passing trajectory를 병합해 task-level PTA를 구성하고, 이 PTA를 바탕으로 새 트레이젝토리의 품질을 평가한다. 3) four signals를 통해 0–100 점수 f(τc, G)를 계산하고, 70 이상을 Ideal, 47–69를 Solid, 그 미만은 Lucky로 분류한다. 4) 실험은 pilot 세트에서 가중치를 결정하고, scaled evaluation-set에서 교차 검증 없이 PTA를 task별로 구성해 1,815 트레이젝토리의 품질을 평가한다. 5) Baseline으로 Trajectory 매칭, TF-IDF 정렬, Dense embedding 정렬을 비교한다.
관련 Figure

워크플로우 다이어그램은 AGENTLENS의 핵심 아이디어인 PTA 기반 참조 구성과 의도-단계 라벨링의 실행 흐름을 보여준다. 프로세스-레벨 평가의 구성 요소와 상호 작용을 이해하는 데 직접적이다.
AGENTLENS 워크플로우(트레이스 수집→파싱/상태창출→intent-stage 라벨링→PTA구성·병합→분석/시각화)

PTA 구성의 예시를 통해 유사한 Prefix를 합치는 병합 방식과 분기점의 다중 경로를 그래프로 표현하는 원리를 설명한다.
다중 passing trajectory를 결합해 PTA를 구성하는 과정을 요약한 도식

터미널 명령의 맥락-민감 규칙을 포함한 의도-단계 라벨링의 핵심 규칙을 시각화한다. 이 그림은 레이블링의 불확실성 최소화 및 PTA 병합의 정확도에 직접적으로 기여한다.
Intent-stage 분류 의사결정 트리: 도구 유형에 따른 Exploration/I/Verification/Orchestration 매핑 규칙

네 가지 scoring 신호의 동작 원리를 구체 예시로 보여준다. Principled trajectory와 Chaotic trajectory의 차이를 시각적으로 확인할 수 있다.
Scoring signal 예시(코히런스, 구조적 정합, 세트 커버리지, 시간적 프로파일 Divergence)
주요 결과
주요 결과는 다음과 같다. (1) Passing trajectories는 1,136개 중 20.2%가 Ideal, 69.1%가 Solid, 10.7%가 Lucky로 분류되어, 성공 여부만으로는 품질 차이가 드러나지 않는다. (2) Lucky Pass는 5가지 재발 패턴으로 구성되며, C2 Brute-Force Convergence와 C3 Incomplete Implementation이 전체의 68.0%를 차지한다. (3) Combined score는 Passing과 Failing을 구분하는 유의미한 지표이며 AUROC 0.766, 정확도 0.720, KS p=0.0017으로 추정된다. (4) 모델 간 품질 점수 순위(QS Rank)은 Pass% PR Rank와 다르게 나타나, 8개 모델 전반에서 PR과 QS의 순위 차이가 존재한다. (5) Merge-count(k=5)에서 AUROC=0.777로 가장 우수하며, task-coverage는 31/41로 확대되나 survivorship 이슈를 야기하지 않는 범위에서의 개선으로 판단된다.
관련 Figure

이 도표는 단지 패스 여부가 아니라 프로세스의 질 차이가 존재한다는 핵심 근거를 제시한다. 비록 모두 패스하지만, Lucky Pass의 존재를 확인하고 후속 분석의 필요성을 뒷받침한다.
Passing trajectories의 품질 점수 분포와 이들 중 Lucky/Solid/Ideal 비율을 보여주는 도표

출력 결과의 분포와 Cut-off를 제시해, 어떻게 Passing/Failing을 구분하는지 시각적으로 확인할 수 있다.
Score Density: Outcome별 점수 분포 및 threshold(46.4) 표현

다양한 모델의 패스율과 품질 점수 간의 관계, 모델별 Lucky Pass 비율 차이를 한 눈에 보여준다. 모델 간 행동 차이가 단일 PASS 기준으로는 드러나지 않는다는 점을 강조한다.
Pass Rate vs Mean Quality Score 및 Lucky Rate by Model의 산점도/막대그래프
기술 상세
구조: AGENTLENS는 1) Raw logs를 상태로 매핑하는 도출 파이프라인, 2) 다수의 passing trajectory를 바탕으로 Task-level PTA를 구성하는 합성 단계, 3) candidate trajectory를 PTA에 매핑해 네 가지 신호로 점수를 산출하는 평가 파이프라인으로 구성된다. 수학적 기초: Structural alignment(Φstruct)은 PTA 경로의 순서를 정렬된 재현과 비정렬의 정밀도를 결합해 F1을 산출하며, Set coverage(Φcov)는 PTA의 상태 전체 중 매칭된 비율을 계산한다. Coherence(Φcoh)는 의도-단계 시퀀스의 forward-progress 비율과 blind-retry 패널티를 합성하는 공식으로 정의된다. Temporal profile divergence(Φtemp)는 Early/Middle/Late의 세 구간에서의 단계 분포를 Jensen-Shannon divergence로 PTA와 비교한다. 결합 점수: f(τc,G)=0.20Φstruct+0.15Φcov+0.30(100Φcoh)+0.35(100Φtemp). 차별점: PTA 기반의 다중 경로 참조 그래프, Trajectory-history-aware intent labeling, 도메인-특정 PTA를 통한 분기점 위치화, 그리고 waste 분석을 통한 효율성 진단은 기존의 단일 참조 경로 기반 평가와 구별된다. 구현/학습: 파이프라인은 CPU에서 수행되며, ATIF 포맷과 OpenHands 로그에 대한 어댑터를 통해 범용화 가능하다. 한 pilot에서의 ablation은 각 신호의 기여도와 merge-count, merge-order의 민감도를 분석한다. 기존 연구 대비 차별점: ① 다중-참조 PTA를 통한 공간적 유연성, ② 의도-단계 라벨링의 맥락적 판단, ③ 구조적+행동적 신호의 가중 결합을 통한 해석 가능성, ④ 비생성형(비LLM) 파이프라인으로 재현 가능성 확보.
한계점
본 분석은 OpenHands 스타일의 SWE-벤치와 제한된 task 구성에 한정되며, trace 포맷 어댑터가 필요한 경우가 있다. 또한 스케일링에 따른 PTA의 크기 증가와 Survivorship bias의 가능성을 주의해야 한다.
실무 활용
AGENTLENS는 SWE 에이전트의 해결 과정(process)을 평가하는 프레임워크로, 1) 프로세스 기반의 품질 점수 제공, 2) 버그 탐지 및 개선 포인트 식별, 3) 훈련 데이터 및 벤치마크 구성에 유용한 프로세스 정보를 제공한다.
- Model 비교를 단순한 패스/실패에서 벗어나, 프로세스 품질로 차등 평가
- Lucky Pass의 원인 분석을 통해 모델 개선 방향 제시
- PTA 기반의 다경로 참조를 활용한 교육/커리큘럼 구성
- 테스트 커버리지 및 검증 절차 강화로 배포 안전성 향상
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.