핵심 요약
AI 에이전트가 단일 실행에서 인간을 능가하는 성능을 보여주더라도, 동일한 작업에서 반복적으로 성공하지 못하는 신뢰성 문제가 실무 도입의 큰 장애물이 되고 있습니다. 이 논문은 에이전트의 불확실성을 유발하는 3대 요인을 정의하고, 단순 성공률이 아닌 재현 가능한 성공을 측정하기 위한 새로운 평가 체계를 제시합니다.
왜 중요한가
AI 에이전트가 단일 실행에서 인간을 능가하는 성능을 보여주더라도, 동일한 작업에서 반복적으로 성공하지 못하는 신뢰성 문제가 실무 도입의 큰 장애물이 되고 있습니다. 이 논문은 에이전트의 불확실성을 유발하는 3대 요인을 정의하고, 단순 성공률이 아닌 재현 가능한 성공을 측정하기 위한 새로운 평가 체계를 제시합니다.
핵심 기여
컴퓨터 사용 에이전트(CUA)의 신뢰성 저하 요인 3가지 정의
에이전트의 실행 결과가 매번 달라지는 원인을 추론 시의 Stochasticity(확률성), 지시어의 Ambiguity(모호성), 에이전트 전략의 Planning Variability(계획 가변성)로 체계화했다.
재현 가능한 성공 측정을 위한 Pass^k 지표 도입
단 한 번이라도 성공하면 점수를 주는 Pass@k와 달리, k번의 시도 모두에서 성공해야 신뢰할 수 있다고 판단하는 Pass^k 지표를 통해 에이전트의 실질적인 안정성을 측정했다.
OSWorld 벤치마크 기반의 통계적 신뢰성 분석
McNemar Test와 Wilcoxon Signed-Rank Test를 활용하여 환경 변화나 지시어 명확화가 개별 작업 단위의 신뢰성에 미치는 영향을 통계적으로 검증했다.
핵심 아이디어 이해하기
기존의 AI 에이전트 평가는 여러 번 시도해서 한 번이라도 성공하면 성능이 좋다고 간주하는 Pass@k 방식에 의존해 왔습니다. 하지만 실제 업무 환경에서 AI가 어떨 때는 성공하고 어떨 때는 실패한다면 사용자는 AI를 신뢰할 수 없습니다. 이는 마치 주사위를 던져 6이 나올 때까지 기다리는 것과 같으며, 진정한 자동화 도구로서의 가치를 상실하게 만듭니다.
논문은 이 문제를 해결하기 위해 '결과적 성공'이 아닌 '과정의 일관성'에 집중합니다. 에이전트가 동일한 입력값에 대해 매번 다른 경로를 선택하거나, 모호한 지시사항을 자의적으로 해석하여 운 좋게 성공하는 경우를 걸러내야 한다고 봅니다. 특히 LLM의 토큰 생성 확률(Stochasticity)이 낮더라도 에이전트가 세우는 고수준 계획이 흔들리면 신뢰성이 급격히 떨어진다는 점을 지적합니다.
결국 신뢰성을 높이기 위해서는 단순히 모델의 지능을 높이는 것을 넘어, 지시사항의 모호성을 실행 전이나 실행 중에 능동적으로 해소하고(Interaction), 과거의 성공 경로를 고정하거나 정제하여(Plan Extraction) 변동성을 최소화하는 구조적 접근이 필요함을 보여줍니다.
방법론
에이전트의 신뢰성을 분석하기 위해 OSWorld 환경에서 GPT-5, Claude 4.6, Kimi 2.5 등 최신 모델을 대상으로 반복 실행 실험을 설계했다. 신뢰성 측정의 핵심으로 Pass^k 지표를 사용하며, 이는 n번의 실행 중 k번 모두 성공할 확률을 계산한다. [전체 작업 수 중 k번 연속 성공한 작업 수 → 전체 작업 수로 나눔 → 0~1 사이의 값 산출 → 값이 1에 가까울수록 높은 신뢰성 의미]
신뢰성 개선을 위해 세 가지 개입(Intervention) 전략을 적용했다. 첫째, Deterministic Execution을 통해 토큰 샘플링의 무작위성을 제거했다. 둘째, Instruction Clarification을 통해 실행 전 지시어를 명확히 하거나 실행 중 피드백을 제공했다. 셋째, Plan Extraction을 통해 이전의 성공적인 궤적에서 고정된 실행 계획을 추출하여 다음 실행에 강제로 적용하는 방식을 사용했다.
통계적 유의성 검증을 위해 McNemar Test를 도입했다. [기존 설정에서 실패했으나 새 설정에서 성공한 작업 수(b)와 그 반대 케이스(c)를 입력 → (b-c)² / (b+c) 연산 → 카이제곱 분포 값 산출 → 설정 변경이 신뢰성 개선에 유의미한 영향을 주었는지 판정]
주요 결과
실험 결과, 최신 모델인 GPT-5 기반 에이전트조차 Pass@10(10번 중 한 번이라도 성공)은 78%에 달했으나, Pass^10(10번 모두 성공)은 36%에 불과하여 심각한 신뢰성 격차(43pp gap)를 보였다. 이는 현재의 에이전트 성능 수치가 과대평가되었을 가능성을 시사한다.
단순히 추론 온도를 0으로 설정하는 Deterministic Decoding은 신뢰성을 일관되게 향상시키지 못했다. 오히려 Qwen 모델의 경우 신뢰성이 하락하는 결과가 나타났는데, 이는 무작위성을 제거하는 것이 에이전트의 유연한 환경 적응 능력을 저해할 수 있음을 의미한다.
가장 효과적인 개선책은 지시어 명확화(Instruction Clarification)였다. 실행 전 지시어를 구체화했을 때 GPT-5의 Pass^3 성능이 45.4%에서 57.6%로 크게 향상되었으며, 실행 중 사용자 시뮬레이터의 피드백을 받는 'Retry (Clarify)' 설정에서는 Kimi 2.5 모델의 신뢰성이 35.7%에서 63.4%로 두 배 가까이 급증했다.
관련 Figure

왼쪽 그래프는 시도 횟수가 늘어날수록 '한 번이라도 성공할 확률(Pass@k)'은 올라가지만 '모든 시도에서 성공할 확률(Pass^k)'은 급격히 떨어지는 현상을 보여준다. 오른쪽 다이어그램은 이러한 불일치를 유발하는 3대 핵심 요인인 확률성, 지시어 모호성, 계획 가변성을 시각화하여 논문의 핵심 문제 의식을 명확히 전달한다.
에이전트의 시도 횟수(k) 증가에 따른 Pass@k와 Pass^k의 성능 격차 및 신뢰성 저하 요인 다이어그램
기술 상세
본 연구는 에이전트의 동작을 POMDP(Partially Observable Markov Decision Process) 프레임워크로 정형화하여 분석했다. 상태 공간 S, 관측 공간 O, 행동 공간 A, 전이 함수 T, 보상 함수 R로 구성된 모델에서 신뢰성을 '동일 정책 하의 다중 궤적에 대한 보상의 곱이 1이 될 확률'로 정의했다.
특히 'Planning Variability'를 제어하기 위해 제안된 Iterative Plan Refinement 기법은 주목할 만하다. 이는 Iteration 0에서 생성된 여러 궤적을 LLM 기반의 'Behavior Judge'가 분석하여, 성공 요인과 실패 패턴을 텍스트 형태의 피드백으로 요약하고 이를 다음 실행의 시스템 프롬프트에 주입하는 방식이다. 이는 강화학습의 Policy Improvement와 유사한 효과를 텍스트 수준에서 구현한 것이다.
환경 섭동(Environment Perturbation) 실험에서는 배경화면, 커서 크기, 아이콘 테마 등 기능과 무관한 시각적 요소의 변화만으로도 Claude와 같은 고성능 모델의 신뢰성이 유의미하게 하락함을 발견했다. 이는 현재의 비전-언어 모델(VLM)들이 시각적 노이즈에 취약하며, 이것이 에이전트의 의사결정 일관성을 해치는 주요 원인 중 하나임을 기술적으로 증명했다.
한계점
본 연구는 OSWorld라는 특정 데스크톱 환경에 국한되어 실험이 진행되었으며, 실제 인간 사용자와의 실시간 상호작용에서 발생할 수 있는 더 복잡한 동적 모호성은 충분히 다루지 못했다. 또한, Plan Extraction 과정에서 정답 레이블(Ground-truth)에 접근할 수 있다는 가정이 실무 환경에서는 제약이 될 수 있다.
실무 활용
실제 업무 자동화 시스템 구축 시, 단일 성공률 지표에 속지 말고 반복 실행 테스트를 통한 신뢰성 검증이 필수적임을 시사합니다.
- 엔터프라이즈급 RPA(로봇 프로세스 자동화) 도입 전 에이전트의 업무 재현성 평가
- 에이전트 지시어(Prompt) 최적화 시 모호성 제거를 위한 자동 가이드라인 생성
- 실패한 에이전트 실행 로그에서 성공 패턴을 추출하여 고정된 워크플로우로 변환하는 최적화 도구 개발
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.