핵심 요약
기존 AI 에이전트 벤치마크는 웹 브라우징이나 코드 작성 등 공개된 환경에 국한되어 실제 산업 현장의 전문 업무 수행 능력을 평가하기 어려웠다. 이 논문은 LLM이 환경 자체를 시뮬레이션하는 Language World Models 기법을 도입하여 의료, 금융, 제조 등 65개 전문 분야의 복잡한 워크플로우를 인프라 구축 없이도 체계적으로 평가할 수 있는 기반을 마련했다.
왜 중요한가
기존 AI 에이전트 벤치마크는 웹 브라우징이나 코드 작성 등 공개된 환경에 국한되어 실제 산업 현장의 전문 업무 수행 능력을 평가하기 어려웠다. 이 논문은 LLM이 환경 자체를 시뮬레이션하는 Language World Models 기법을 도입하여 의료, 금융, 제조 등 65개 전문 분야의 복잡한 워크플로우를 인프라 구축 없이도 체계적으로 평가할 수 있는 기반을 마련했다.
핵심 기여
OCCUBENCH 벤치마크 구축
10개 산업 카테고리, 65개 전문 분야에 걸친 100개의 실제 전문직 업무 시나리오와 382개의 평가 인스턴스를 포함하는 대규모 벤치마크를 구축했다.
Language World Models(LWMs) 제안
LLM이 도메인 지식을 바탕으로 도구 응답을 생성하여 상태 기반의 대화형 환경을 시뮬레이션하는 방식을 통해 물리적 API나 환경 구축 비용 문제를 해결했다.
환경 강건성 평가 체계 도입
단순한 성공 경로뿐만 아니라 명시적 오류(HTTP 500 등)와 암시적 데이터 저하(필드 누락 등)를 주입하여 에이전트의 실질적인 대응 능력을 측정한다.
멀티 에이전트 합성 파이프라인
해결 가능성, 난이도 보정, 문서 기반 다양성이 보장된 평가 데이터를 자동으로 생성하는 파이프라인을 설계하여 벤치마크의 확장성을 확보했다.
핵심 아이디어 이해하기
기존의 AI 에이전트 평가는 실제 작동하는 웹사이트나 API 서버가 구축된 환경에서만 가능했다. 하지만 병원 응급실 트리아지나 원자력 발전소 모니터링 같은 전문 영역은 보안과 비용 문제로 공개된 평가 환경을 만들기 불가능에 가깝다. 이 논문은 LLM이 이미 방대한 도메인 지식과 API 문서 데이터를 학습했다는 점에 착안하여, LLM 자체가 환경(World Model) 역할을 수행하게 함으로써 이 문제를 해결한다.
동작 원리는 에이전트가 도구를 호출(Tool Call)하면, 환경 역할을 하는 LLM(LWM)이 현재 상태와 시스템 프롬프트에 정의된 규칙에 따라 적절한 관측값(Observation)을 생성하여 반환하는 방식이다. 이는 복잡한 서버 인프라 대신 텍스트 기반의 상태 전이 함수로 환경을 정의하는 것으로, Transformer의 컨텍스트 유지 능력을 활용해 일관된 업무 흐름을 시뮬레이션한다.
결과적으로 개발자는 환경 구축이라는 엔지니어링 문제에서 벗어나 시나리오 설정이라는 구성 문제로 평가 범위를 넓힐 수 있다. 실험 결과, 최신 모델일수록 업무 수행 능력은 높지만 환경 시뮬레이션 능력은 별개로 나타나는 등 에이전트 모델의 다각적인 성능 특성을 파악할 수 있게 되었다.
관련 Figure

추론에 더 많은 컴퓨팅 자원을 할당할수록 에이전트의 업무 수행 능력이 향상됨을 보여준다. 특히 GPT-5.2는 추론 수준이 높아짐에 따라 성능이 비약적으로 상승하는 뚜렷한 경향성을 보인다.
추론 노력 수준(Reasoning Effort Level) 증가에 따른 GPT-5.2와 Claude Opus 4.6의 성능 변화 그래프이다.
방법론
LWM(Language World Model)은 (system_prompt, tool_schema, initial_state, state_description)의 네 가지 구성 요소로 정의된다. 에이전트의 행동 a_t가 입력되면 LWM은 내부 상태 s_t를 참조하여 다음 상태 s_{t+1}과 관측값 o_{t+1}을 생성한다. [에이전트의 도구 호출 텍스트 입력 → LWM이 도메인 로직과 현재 상태를 대조 연산 → 업데이트된 상태 정보와 JSON 형식의 응답 출력 → 에이전트에게 전달되는 관측값의 의미].
평가 데이터 생성에는 Gemini-3-Flash-Preview 기반의 멀티 에이전트 합성 파이프라인을 사용한다. 각 시나리오별로 전문 참조 문서를 생성하고, 이를 바탕으로 환경 설정, 작업 지침, 도구 정의, 정답 계획을 도출한다. 생성된 작업은 참조 계획 유무에 따른 반복 실행을 통해 해결 가능성(solvability)과 난이도를 검증하며, 다수결 원칙을 적용한 검증기(Verifier)가 최종 통과 여부를 판정한다.
강건성 테스트를 위해 세 가지 결함 주입(Fault Injection) 전략을 사용한다. E1(Explicit)은 타임아웃이나 500 에러를 무작위로 발생시키고, E2(Implicit)는 데이터 필드를 누락시키거나 오래된 캐시 값을 반환한다. E3(Mixed)는 두 방식을 혼합한다. [결함 발생 확률 및 지속 시간 파라미터 입력 → LWM의 시스템 프롬프트에 결함 생성 규칙 추가 연산 → 비정상적인 도구 응답 출력 → 에이전트의 오류 감지 및 복구 능력 측정].
주요 결과
15개의 최첨단 모델을 평가한 결과, GPT-5.2가 평균 79.6%의 완료율로 종합 1위를 기록했으나 모든 산업을 지배하지는 못했다. Gemini 3.1 Pro는 교육(84%)과 과학(81%)에서 강세를 보였고, Claude Opus 4.6은 운송(77%)과 비즈니스(78%)에서 우수했으나 커머스(53%)에서는 저조한 성적을 거두는 등 모델별로 특화된 직업적 역량 프로필이 다르게 나타났다.
환경 강건성 측면에서는 암시적 결함(E2)이 명시적 오류(E1)보다 훨씬 치명적임이 확인됐다. 전체 모델의 평균 성능은 깨끗한 환경(E0)에서 67.5%였으나, 명시적 오류 주입 시 62.6%, 암시적 데이터 저하 주입 시 53.4%로 급락했다. 이는 현재의 에이전트들이 명확한 에러 메시지에는 재시도로 대응하지만, 겉보기에 정상인 불완전한 데이터는 스스로 감지하지 못함을 시사한다.
추론 노력(Reasoning Effort)에 따른 성능 분석에서 GPT-5.2는 노력을 최소에서 최대(xhigh)로 높일 때 성능이 27.5포인트(54.7% → 82.2%) 상승하는 강력한 단조 증가 추세를 보였다. 또한, 강력한 에이전트 모델이 반드시 우수한 시뮬레이터는 아니라는 점이 밝혀졌다. GPT-5.2는 에이전트 성능은 1위였으나 시뮬레이터로서의 품질은 가장 낮아, 상태 조작이나 규칙 위반 오류를 자주 범했다.
관련 Figure

각 모델이 산업별로 고유한 강점과 약점을 가진 '역량 프로필'을 보유하고 있음을 시각적으로 증명한다. 예를 들어 GPT-5.2는 과학 분야에서 압도적이지만 커머스 분야에서는 다른 모델에 뒤처지는 모습을 보여준다.
10개 산업 카테고리에 대한 주요 모델들의 성능 프로필을 보여주는 레이더 차트이다.

모든 모델에서 암시적 결함(E2, 붉은색)이 발생했을 때 성능 하락폭이 가장 크다는 것을 보여준다. 이는 에이전트가 명시적인 에러 메시지 없이 데이터가 손상된 상황을 감지하는 데 취약함을 나타낸다.
정상 환경(E0)과 세 가지 결함 주입 환경(E1, E2, E3)에서의 모델별 완료율 비교 바 차트이다.
기술 상세
OCCUBENCH는 에이전트의 다단계 의사결정 능력을 평가하기 위해 평균 5.5개의 도구와 작업당 평균 16.2회의 도구 호출이 필요한 복잡한 시나리오를 설계했다. 아키텍처적으로 LWM은 상태 저장형(stateful) 환경을 모방하기 위해 대화 이력 H_{t-1}을 컨텍스트로 유지하며, 이는 (s_{t+1}, o_{t+1}) = f_θ(s_t, a_t; c) 함수로 정형화된다.
실험에 사용된 Robustness Score(R)는 R = min(CR_E1, CR_E2, CR_E3) / CR_E0로 계산되어 최악의 경우에 대한 회복 탄력성을 측정한다. 시뮬레이터 품질 검증을 위해 'Pairwise Agreement Rate'를 도입했으며, Gemini-3-Flash-Preview가 다른 시뮬레이터(Qwen 3.5 Plus, GPT-5.2)와 비교했을 때 모델 간 순위를 가장 일관되게 보존(최대 85.7% 일치)함을 입증했다.
구현 세부사항으로, LWM은 도메인 로직을 시뮬레이션할 때 실제 데이터베이스 조회 대신 학습된 지식을 기반으로 응답을 생성하므로 수치적 정확도보다는 의사결정 프로세스의 논리적 타당성 평가에 집중한다. 따라서 금융 계산과 같이 소수점 단위의 정확도가 필수적인 영역에서는 실제 환경 테스트를 병행할 것을 권장한다.
관련 Figure

Gemini Flash와 Qwen 3.5+ 시뮬레이터 간에는 85.7%의 높은 순위 일치도를 보이지만, GPT-5.2 시뮬레이터는 다른 시뮬레이터들과의 일치도가 낮아 시뮬레이션 품질이 평가 신뢰도에 중요함을 시사한다.
서로 다른 시뮬레이터 간의 모델 순위 일치도를 나타내는 히트맵이다.
한계점
LWM은 도메인 데이터가 아닌 도메인 로직을 시뮬레이션하므로, 실제 데이터베이스의 구체적인 수치 값과는 차이가 있을 수 있다. 따라서 금융 계산과 같이 정밀한 수치 일치가 중요한 도메인에서는 LWM 기반 평가가 실제 환경 테스트를 완전히 대체할 수 없으며 보완적인 용도로 사용되어야 한다.
실무 활용
기업용 AI 에이전트를 도입하려는 조직이 실제 업무 환경을 구축하기 전, LWM을 활용해 모델의 도메인 적합성과 예외 상황 대응 능력을 저비용으로 사전 검증할 수 있다.
- 특정 산업(의료, 금융 등) 도입 전 에이전트의 전문 지식 및 워크플로우 준수 여부 평가
- API 장애나 데이터 누락 등 열악한 네트워크 환경에서의 에이전트 복구 시나리오 테스트
- 다양한 LLM 모델 중 특정 비즈니스 도메인에 가장 높은 성과를 내는 모델 선별
- 에이전트의 추론 단계(Thinking) 설정에 따른 비용 대비 성능 효율성 최적화
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.