핵심 요약
기존 AI 에이전트 평가가 단일 파일이나 단순한 지시 이행에 그쳤던 것과 달리, 실제 사무 환경처럼 수만 개의 파일과 복잡한 의존성이 얽힌 환경에서 에이전트의 실질적인 업무 수행 능력을 평가합니다. 연구 결과 현재 가장 뛰어난 에이전트도 인간의 업무 완성도에 크게 못 미치는 것으로 나타나, 향후 에이전트 아키텍처가 나아가야 할 방향을 제시합니다.
왜 중요한가
기존 AI 에이전트 평가가 단일 파일이나 단순한 지시 이행에 그쳤던 것과 달리, 실제 사무 환경처럼 수만 개의 파일과 복잡한 의존성이 얽힌 환경에서 에이전트의 실질적인 업무 수행 능력을 평가합니다. 연구 결과 현재 가장 뛰어난 에이전트도 인간의 업무 완성도에 크게 못 미치는 것으로 나타나, 향후 에이전트 아키텍처가 나아가야 할 방향을 제시합니다.
핵심 기여
Workspace-Bench 1.0 벤치마크 구축
5가지 직무 프로필, 74개 파일 형식, 20,476개의 파일로 구성된 대규모 디지털 워크스페이스 환경을 구축하고 388개의 복잡한 의존성 기반 태스크를 설계했다.
Workspace-Bench-Lite 제공
전체 벤치마크의 분포를 유지하면서도 평가 비용을 약 70% 절감할 수 있는 100개의 핵심 태스크 서브셋을 공개하여 연구 효율성을 높였다.
Agent-as-a-Judge 평가 프레임워크
단순 결과 일치 여부가 아닌 7,399개의 세부 루브릭을 통해 최종 결과의 정확성, 중간 추론 과정, 운영 효율성을 다각도로 검증하는 자동화된 평가 체계를 도입했다.
워크스페이스 학습의 5단계 진화 모델 제시
데이터 비민감 실행부터 워크스페이스 네이티브 자기 진화까지 에이전트가 발전하는 단계를 정의하고 현재 기술 수준이 어느 단계에 머물러 있는지 분석했다.
핵심 아이디어 이해하기
기존의 RAG(검색 증강 생성) 시스템은 검색된 텍스트 조각들을 평면적인 집합으로 취급하여 파일 간의 구조적, 시간적 의존성을 파악하지 못하는 한계가 있다. 예를 들어 특정 보고서의 최신 버전을 찾거나 여러 엑셀 시트의 데이터를 통합해 전략을 세우는 작업에서 기존 모델은 파일 간의 연결 고리를 놓치는 경우가 많다.
이 논문은 에이전트가 워크스페이스 내의 수많은 파일 사이의 명시적, 암시적 관계를 파악하고 추론하는 'Workspace Learning' 개념을 도입한다. 이는 단순히 정보를 찾는 수준을 넘어 파일의 버전 이력(Lineage), 서로 다른 형식 간의 데이터 연결(Semantic Relation) 등을 그래프 형태로 이해하고 활용하는 방식이다.
실험 결과 에이전트들은 단순한 파일 탐색은 잘 수행하지만, 여러 파일에 흩어진 정보를 논리적으로 결합하거나 파일의 선후 관계를 추적하는 고차원적 작업에서 급격한 성능 저하를 보였다. 이는 향후 에이전트가 단순한 도구 사용자를 넘어 실제 동료처럼 업무 맥락을 이해하기 위해 해결해야 할 핵심 과제가 '데이터 연관성 격차(Data Association Gap)'임을 시사한다.
방법론
워크스페이스 구축을 위해 인터넷 기업의 5가지 역할(운영, 물류, 제품 관리, 백엔드 개발, 연구원)을 정의하고 각 역할에 맞는 디렉토리 구조와 파일을 생성했다. Semantic-driven Agentic Crawler를 사용하여 실제 웹상의 기술 문서, 코드, 리포트 등을 수집하고 LLM을 통해 이메일, 회의록 등 연관된 아티팩트를 합성하여 현실적인 데이터 생태계를 모사했다.
평가 시스템은 3가지 retrieval 메커니즘을 병렬로 사용하는 Multi-strategy File Extraction 기술을 적용했다. [에이전트의 최종 응답에서 경로 추출 + 지정된 결과 디렉토리 스캔 + 메타데이터 기반 퍼지 매칭 → 결과 파일 취합 → 평가 대상 확정] 순으로 작동하여 에이전트가 생성한 결과물을 정확히 포착한다.
평가 지표로는 Rubric Pass Rate(RPR), Task Completion Rate(TCR), 그리고 에이전트가 실제 의존성 그래프를 얼마나 정확히 파악했는지 측정하는 Dependency Graph Recognition Rate(F1 Score)를 사용한다. 특히 F1 Score는 [에이전트가 접근한 파일 노드와 엣지 집합 입력 → 정답 그래프와 비교 연산 → 정밀도와 재현율 산출 → 구조적 이해도 수치화] 과정을 거쳐 에이전트의 추론 품질을 정밀하게 측정한다.
관련 Figure

5가지 역할별 워크스페이스 구성부터 에이전트의 실행, 그리고 루브릭 기반의 자동 평가 과정을 한눈에 보여준다. 특히 에이전트가 파일 간의 의미적 관계와 이력을 추적해야 함을 시각적으로 강조한다.
Workspace-Bench의 전체적인 평가 프레임워크와 워크스페이스 구성 요소를 보여주는 다이어그램이다.
주요 결과
총 28가지의 에이전트 설정(4개 Harness x 7개 LLM)을 평가한 결과, 평균 Rubric Pass Rate는 47.4%에 불과했다. 이는 인간 전문가의 성적인 80.7%와 비교했을 때 매우 낮은 수준이며, 가장 우수한 조합인 OpenClaw와 Claude-Opus4.7조차 68.7%에 머물렀다.
작업 난이도에 따른 성능 하락이 뚜렷하게 나타났다. 쉬운 작업(Easy)에서는 평균 57.6%의 성공률을 보였으나, 복잡한 의존성 해결이 필요한 어려운 작업(Hard)에서는 40.5%로 급감했다. 특히 이질적인 파일 형식 이해(Heterogeneous File Understanding)와 파일 이력 추적(Lineage Tracing) 능력이 에이전트 성능의 주요 병목 구간임이 확인됐다.
효율성 측면에서는 높은 비용과 많은 상호작용 횟수가 반드시 높은 성능으로 이어지지 않음을 발견했다. 일부 오픈소스 에이전트 조합은 태스크당 평균 58.1회의 턴과 61만 개의 토큰을 소비하면서도 성공률은 45% 수준에 그쳐, 추론 효율성(Inference Efficiency) 개선이 시급함을 보여주었다.
관련 Figure

작업이 어려워질수록(Easy → Hard) 모든 에이전트의 성능이 일관되게 하락함을 보여주며, 인간 전문가의 성능(빨간 점선)과 현재 AI 기술 사이의 상당한 격차를 증명한다.
다양한 에이전트 설정에 따른 작업 난이도별 루브릭 통과율을 비교한 차트이다.
기술 상세
Workspace-Bench는 단순한 QA를 넘어 에이전트의 '프로세스 인식 평가'를 지향한다. 이를 위해 각 태스크마다 최소한으로 접근해야 하는 파일 경로들의 집합인 '최소 파일 의존성 그래프'를 정답으로 제공한다. 연구자는 에이전트의 실행 로그(Trace)를 분석하여 에이전트가 실제로 올바른 파일을 참조했는지, 구버전이 아닌 최신 버전을 선택했는지 등을 검증할 수 있다.
아키텍처적으로는 에이전트 하네스(Harness)의 역할이 강조된다. ClaudeCode와 같은 하네스는 코드 개발 및 연구 작업에 최적화된 오케스트레이션 설계를 통해 특정 직무에서 80%에 육박하는 성능을 보인 반면, 비즈니스 전략 수립 등 모호한 의미 이해가 필요한 영역에서는 Hermes와 같은 프레임워크가 상대적으로 강점을 보였다. 이는 범용 에이전트보다 직무 특화형 오케스트레이션의 필요성을 뒷받침한다.
한계점
현재 벤치마크는 정적인 파일 시스템 환경을 가정하고 있어, 실시간으로 파일이 수정되거나 외부 API와 상호작용하는 동적인 워크스페이스 환경은 충분히 반영하지 못하고 있다. 또한 5가지 직무 프로필에 한정되어 있어 더 다양한 전문 분야로의 확장 연구가 필요하다.
실무 활용
기업 내 복잡한 문서 환경에서 AI 비서를 도입하려는 엔지니어들에게 실질적인 성능 지표와 한계를 제공한다. 특히 어떤 LLM과 에이전트 프레임워크 조합이 특정 직무(예: 개발자 vs 제품 관리자)에 더 적합한지에 대한 벤치마크 데이터를 활용할 수 있다.
- 사내 위키, 메신저, 클라우드 저장소에 흩어진 정보를 취합하여 주간 보고서 자동 생성
- 코드 변경 이력과 설계 문서를 대조하여 시스템 아키텍처 업데이트 제안
- 다양한 형식의 고객 피드백과 매출 데이터를 통합 분석하여 제품 전략 초안 작성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.