핵심 요약
기존 AI 에이전트는 한 번 정해진 길로만 가는 자율주행차와 같았으나, 실제 환경에서는 사용자가 중간에 목적지를 바꾸는 경우가 많다. 이 연구는 주행 중 요구사항이 바뀌어도 당황하지 않고 경로를 재탐색하는 능력을 평가하는 벤치마크를 제시하여, 더 유연하고 실용적인 AI 에이전트 개발의 토대를 마련했다.
왜 중요한가
기존 AI 에이전트는 한 번 정해진 길로만 가는 자율주행차와 같았으나, 실제 환경에서는 사용자가 중간에 목적지를 바꾸는 경우가 많다. 이 연구는 주행 중 요구사항이 바뀌어도 당황하지 않고 경로를 재탐색하는 능력을 평가하는 벤치마크를 제시하여, 더 유연하고 실용적인 AI 에이전트 개발의 토대를 마련했다.
핵심 기여
InterruptBench 구축
WebArena-Lite를 기반으로 Addition(추가), Revision(수정), Retraction(철회)이라는 세 가지 현실적인 중단 시나리오를 포함하는 최초의 장기 웹 내비게이션 벤치마크를 제안했다.
궤적 기반 중단 시뮬레이션 프레임워크
에이전트의 실행 진행률에 따라 동적으로 중단 메시지를 주입하고, 중단 이후의 적응 능력과 효율성을 측정할 수 있는 평가 체계를 개발했다.
다중 턴 중단 평가 도입
단일 중단뿐만 아니라 실행 과정에서 여러 번의 중단이 발생하는 다중 턴 시나리오를 도입하여 에이전트의 지속적인 정보 통합 능력을 분석했다.
주요 LLM 벤치마킹 수행
Claude-4.5 시리즈, Qwen3, DeepSeek-V3.1, Mistral-Large-3 등 최신 모델들을 대상으로 중단 대응 성능과 토큰/액션 효율성을 심층 비교했다.
핵심 아이디어 이해하기
Attention Mechanism과 Transformer 기반의 에이전트는 주어진 컨텍스트 내에서 최적의 다음 액션을 예측하도록 설계됐다. 그러나 장기 작업에서는 초기 명령어가 수십 단계의 실행 과정을 지배하며, 이 과정에서 발생하는 중간 상태들이 초기 가정에 강하게 결합된다. 사용자가 중간에 마음을 바꾸면, 에이전트는 단순히 새로운 텍스트 명령을 읽는 것을 넘어 기존에 구축한 '상태-액션'의 논리적 연결을 끊고 재구성해야 한다. 이 논문은 중단 메시지를 단순한 추가 정보가 아닌, 기존 궤적을 수정해야 하는 '상태 변화 이벤트'로 정의하고 이를 처리하는 능력을 평가한다. 실험을 통해 모델이 새로운 의도를 수용하더라도, 이미 브라우저에 입력된 텍스트나 선택된 옵션 등 '지속적인 환경 상태'를 수정하지 못해 결국 실패하는 양상을 포착했다. 이는 에이전트가 자신의 과거 액션을 비판적으로 검토하고 수정하는 능력이 지능의 핵심임을 보여준다.
방법론
WebArena-Lite 환경의 165개 작업을 활용하여 InterruptBench를 구축했다. Claude-Opus-4.5를 사용하여 원본 작업을 Addition(정보 추가), Revision(오류 수정), Retraction(제약 철회) 시나리오로 변환했다. 각 시나리오는 중단 메시지가 없으면 정답에 도달할 수 없는 '필수성' 조건을 충족하도록 설계됐다. 궤적 기반 중단 주입 방식을 채택하여 에이전트가 중단 없이 수행한 전체 액션 수의 60% 지점을 동적으로 계산하여 중단 메시지를 주입했다. [현재까지의 관찰값과 액션 히스토리 입력 → 중단 메시지 주입 → 이후 생성되는 액션 시퀀스 관찰] 순으로 시뮬레이션을 진행했다. 성능 평가는 성공률(Success Rate)과 더불어 중단 후 성공까지 걸린 액션 수 k에 따른 SR(k) 곡선을 분석했다. 또한 중단이 발생하지 않은 대조군과의 비교를 통해, 중단 대응 시 발생하는 토큰 오버헤드와 액션 효율성을 정량적으로 측정했다.
주요 결과
Claude-Opus-4.5가 모든 시나리오에서 압도적인 성능을 기록했다. 특히 Revision 시나리오에서 중단 전 성공률 0%에서 중단 후 50% 이상으로 성능이 개선됨을 확인하여, 대형 모델의 동적 적응력을 입증했다. 반면 오픈 소스 모델인 Qwen3나 Mistral-Large-3는 중단 정보를 통합하는 데 어려움을 겪으며 낮은 성공률을 보였다. 효율성 측면에서, 중단 대응은 액션 수의 증가보다는 토큰 사용량의 급격한 증가를 초래했다. Claude-Haiku-4.5의 경우 중단 대응 시 평균 1699개의 추가 토큰을 소모하며, 이는 모델이 새로운 의도와 기존 상태 사이의 충돌을 해결하기 위해 더 많은 추론 과정을 거치기 때문으로 분석됐다. 다중 턴 중단 실험에서는 정보가 여러 번에 걸쳐 나누어 제공될 때 Claude 모델들은 성공률이 계단식으로 상승하는 안정적인 모습을 보였으나, DeepSeek-V3.1 등 일부 모델은 후반부 중단 메시지가 이전 정보와 간섭을 일으켜 오히려 성능이 하락하는 불안정성을 보였다.
기술 상세
에이전트 아키텍처는 WebAgent-R1 스캐폴딩을 기반으로 하며, 브라우저의 Accessibility Tree를 관찰값으로 받아 클릭, 타이핑, 스크롤 등의 액션을 수행한다. 중단 메시지는 에이전트의 ReAct 루프 내에서 새로운 사용자 메시지 형태로 주입된다. 데이터 합성 시 'Ground Truth Consistency'를 위해, 변형된 초기 쿼리와 중단 메시지의 결합이 원본 작업의 정답과 의미적으로 동일하도록 엄격한 제약을 가했다. 이를 통해 중단 대응 여부를 객관적인 프로그래밍 방식으로 검증 가능하게 했다. 실험에 사용된 6종의 모델은 Claude-4.5(Opus, Sonnet, Haiku), Qwen3-Coder-480B, DeepSeek-V3.1, Mistral-Large-3이며, 모든 모델은 동일한 프롬프트 형식과 API 인터페이스를 사용하여 공정한 비교를 수행했다. 중단 위치 실험 결과, 대형 모델은 80% 진행 시점의 늦은 중단에도 유연하게 대처했으나, 소형 모델은 이미 진행된 궤적에 얽매여 수정에 실패하는 경향이 강하게 나타났다.
한계점
에이전트가 중단 메시지를 받았을 때 환경 상태를 명시적으로 복구하거나 수정하는 메커니즘이 부족하여, 여전히 과거 상태에 기반한 답변을 내놓는 경우가 많다. 또한 중단 대응 과정에서 발생하는 높은 토큰 오버헤드는 실무 적용 시 비용 문제를 야기할 수 있다.
실무 활용
실제 서비스 환경에서 사용자와 실시간으로 소통하며 작업을 수행하는 웹 에이전트 개발 시, 중단 대응 능력을 평가하고 개선하는 가이드라인으로 활용 가능하다.
- 사용자의 실시간 피드백을 반영해야 하는 쇼핑 및 예약 에이전트
- 작업 중간에 제약 조건이 자주 바뀌는 데이터 분석 에이전트
- 사용자와 협업하여 코드를 수정하는 코딩 에이전트의 중단 처리 로직 설계
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.