기업 엔터프라이즈 시스템에 학습된 월드 모델이 필요한가? 맥락이 다이나믹스를 추론하는 중요성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

엔터프라이즈 시스템의 다이나믹스는 tenant별 구성(c)에 의해 좌우된다. 학습 기반의 월드 모델만으로는 다양한 배포에서 일반화하기 어렵고, 규칙과 프로세스가 활성화될 때의 실행 순서까지 고려해야 한다. 본 연구는 런타임에서 구성 정보를 읽고 이용하는 enterprise discovery agents를 도입하여, 학습된 priors를 현재 배포 인스턴스에 grounded하게 보완함으로써 시프트에 대한 견고성을 높일 수 있음을 보여준다.

왜 중요한가

엔터프라이즈 시스템의 다이나믹스는 tenant별 구성(c)에 의해 좌우된다. 학습 기반의 월드 모델만으로는 다양한 배포에서 일반화하기 어렵고, 규칙과 프로세스가 활성화될 때의 실행 순서까지 고려해야 한다. 본 연구는 런타임에서 구성 정보를 읽고 이용하는 enterprise discovery agents를 도입하여, 학습된 priors를 현재 배포 인스턴스에 grounded하게 보완함으로써 시프트에 대한 견고성을 높일 수 있음을 보여준다.

핵심 기여

Enterprise dynamics의 정식화

전이 함수를 배포 인스턴스의 구성(c)으로 정의하고, st+1 ∼ P(st+1 | st, at, c)로 표현한다. 이는 구성 아티팩트가 시스템 응답에 직접 영향을 미치는 엔터프라이즈 환경의 특수성을 formalize한다.

CascadeBench 도입

구성 시프트와 배포 시프트에서의 전이 예측을 평가하기 위한 벤치마크 CascadeBench를 제시한다. synthetic 스키마와 규칙으로 구성된 64개 월드, 6개 산업, 3개 조직 규모로 구성되며, 트랜지션 샘플 27,243개를 수집한다.

런타임 디스커버리 에이전트 제안

현재 인스턴스의 구성(c)을 retrieval한 뒤 충분한 context로 reasoning하는 디스커버리 에이전트를 제안한다. fLLM(st, at, c˜, ŝ1:t) 형태로 다음 상태를 예측하며, 다단계 롤아웃에서 cascades의 누적 효과를 추론한다.

오프라인 월드 모델과의 비교 및 시프트에 대한 견고성

오프라인으로 학습된 엔터프라이즈 월드 모델은 인디스트리뷰션에서 잘 작동하지만, 배포/구성 시프트에서 성능이 저하된다. 반면 런타임 grounding을 활용하는 디스커버리 에이전트는 현재 배포 인스턴스에 기반하여 예측을 보정하므로 시프트에 더 강건하다.

Tier 기반 다이트 분석 및 실험

Tier 1(schema-deterministic)부터 Tier 3(execution-inferred)까지의 다이나믹스를 계층적으로 분석한다. Tier1-2에서 디스커버리가 오라클에 근접하거나 유사한 성능을 보이며, Tier3에서는 실행 순서의 정의되지 않은 동작으로 한계를 보인다.

데이터셋 확장 및 실험 설정

27,243개 트랜지션 샘플, 64개 월드, 6개 산업, 3개 조직 규모로 구성된 Enterprise Gym 데이터를 활용하여 CascadeBench를 구성하고, 규칙=context와 맥락(discovery) 간의 기여를 비교한다.

핵심 아이디어 이해하기

출발점: 엔터프라이즈 시스템의 전이 동학은 데이터 사전(dictionary)와 Business Rule의 조합으로 결정된다. 기존 월드 모델은 고정된 규칙을 학습 데이터에서 추정해야 하므로, 배포마다 다른 구성에 따라 예측이 떨어지는 문제를 안고 있다. 해결 원리: 런타임에서 구성(c)을 Retrieve하고, 이를 바탕으로 fLLM을 통해 st, at와의 관계를 추론한다. 실행 흐름은 retrieve-then-reason 패러다임으로, Tier1-2 수준의 간단한 전이에서는 구성의 가용성이 충분하고, Tier3의 실행-의미론적 요소는 여전히 남는다. 달라지는 점: 오프라인 학습은 인디스트리뷰션에서 강점이 있으나 시프트에 취약하고, 디스커버리는 현재 배포의 규칙과 상호작용하며 규칙 구성을 재조합해 롱테인(prediction)에서 더 나은 안정성을 보여준다. 이로써 학습 priors와 런타임 검색의 결합이 엔터프라이즈 환경의 안정적 예측을 가능하게 한다.

방법론

전이 함수의 기본 식은 st+1 ∼ P(st+1 | st, at, c)이다. c는 특정 인스턴스의 배포 구성이다. 이 연구는 세 가지 예측 접근을 비교한다. 1) Prompted Baseline: 고정된 프롬프트만으로 st, at를 입력받아 field-level diffs를 예측한다. 2) Learned Enterprise World Model: (st, at, st+1) 튜플로 학습된 세계 모델로 LoRA를 활용해 미세조정한다. BR(비즈니스 룰) 정보를 프롬프트에 포함 여부에 따라 성능 차이를 보인다. 3) Enterprise Discovery Agent: 런타임에_live instance의 구성(c˜)를 검색한 뒤 fLLM(st, at, c, ŝ1:t)을 통해 차이를 예측한다. 디스커버리는 multi-hop를 허용하는 재귀 도구 호출 루프를 통해 RULE/SCHEMA/SLAs를 점진적으로 구성한다. 예측은 최소 한 개의 단계에서부터 시작해, 각 단계에서 얻은 ŝ를 context에 추가하고 이후 예측을 수행한다. 최종 출력은 audit 형식의 field-level diffs이며, snow_query 도구를 통해 sys_script, 현재 레코드 상태, sys_choice, contract_sla 등을 조회한다. 평가 지표는 IoU(T+F) 및 Strict IoU로, 각 방법의 맥락(context) 접근성과 룰 구성의 활용도를 구분한다.

주요 결과

주요 결과는 CascadeBench와 WoW에서의 비교다. 1) Rung 1에서 BR이 제공되면 프롬프트 기반 모델은 강한 성능을 보이고, BR이 없으면 성능이 급감한다. 예를 들어 Qwen-3.5-27B-LoRA의 w/ BR에서 IoU(T+F) 61.47로 최고치를 보였고, w/o BR에서 IoU 14.51을 보였다. 2) Rung 2에서 SFT로 미세조정한 모델은 동일 배치에서 인-디스트리뷰션에서 높은 성능을 보이나, CascadeBench와 같은 시프트가 있습니다면 대략 40–41 IoU로 줄어든다. 3) Rung 3의 런타임 디스커버리는 동일 모델에서 프롬프트 기반 대비 horizon k에서 안정적으로 향상된다. WoW에서 k=1에서 Opus 4.6은 IoU를 0.40에서 0.45로, SOTA 대비 최대 약 0.10의 증가를 보였다. 디스커버리는 프롬프트 기반과 비교해 모델 간 전반에 걸쳐 개선 효과를 보이며, Tier1-2에서는 거의 오라클에 근접하는 성능을 달성한다. Tier 3에서는 실행-정의 불완전성으로 인해 한계를 보이나, Tier1-2에서의 성능은 충분히 실용적이다. Tier별 결과에서 T1은 약 0.63–0.66, T2는 약 0.60–0.65, T3은 약 0.52 수준으로 측정되었다. CascadeBench와 WoW 간의 격차는 모델별로 다르며, 디스커버리가 이 격차를 줄이는 방향으로 작동한다.

기술 상세

엔터프라이즈 동학의 수학적 모델은 st+1 ∼ P(st+1 | st, at, c)로 표현되며, c를 런타임에서 추출하는 retrieve-then-reason 구조를 따른다. Discovery Agent는 입력으로 st, at를 받고, 시스템 구성을 조회하는 snow_query 도구를 통해 BR, 스키마, SLA, 레코드 등을 수집한다. 이를 바탕으로 fLLM은 각 스텝마다 특정 테이블/필드의 oldvalue, newvalue를 포함하는 audit 엔트리를 생성한다. 다중 스텝 롤아웃에서 ŝ1:t를 컨텍스트에 누적하면서 다음 스텝을 예측한다. Tier 1은 스키마 결정적이고 Tier 2는 규칙 구성으로 이어지며, Tier 3는 실행-정렬과 엔진 내부 동작에 의존하는 영역이다. CascadeBench는 1) Schema generation, 2) Business rule cascade construction, 3) Cascade execution 및 audit capture의 3단계 파이프라인으로 생성되며, 각 단계는 deterministic 검증 체크를 거친다. Boil-down 하면, BR의 구성과 실행 순서를 재현 가능하게 재구성하는 것이 핵심이다.

한계점

해당 디스커버리 에이전트는 live 인스턴스의 비즈니스 규칙 가시성에 의존한다. 접근 제어가 강하면 Prompted Baseline과 동등해지며, 오픈-웨이트 모델의 도구 사용 능력이 낮으면 LoRA 파인튜닝이 우세해질 수 있다. 현재 평가 플랫폼은 ServiceNow 단일 플랫폼에 국한되며 Tier3 다이나믹스는 audit log로 확인 가능한 다중 규칙 충돌로 제한적으로만 다룬다. 또한 Tier3의 실행 주문 해석은 구성 정보만으로 완전 재현이 어렵다.

실무 활용

구성 가능하고 실행 시 변화가 발생하는 엔터프라이즈 환경에서 학습된 world model과 런타임 구성 읽기를 결합해 보다 견고한 전이 예측이 가능하다.

다양한 고객 인스턴스에 대해 전이 예측 모델의 재학습 없이 로드맵을 구성할 때
런타임에서 규칙/SCHEMA를 조회해 자동화 워크플로우의 예측 신뢰도 향상
Tier1-2 수준의 복잡한 규칙 캐스케이드의 예측 정확도 향상

코드 공개 여부: 미확인

키워드

CascadeBenchWorld Modelsenterprise dynamicsdeployment shiftruntime discoveryenterprise discovery agentsWorld of WorkflowsWoW