핵심 요약
현실적인 사무 업무는 개인화된 파일 구조와 복잡한 문서 환경에 의존하지만, 개인정보 보호 문제로 실제 데이터를 학습에 쓰기 어렵다. 이 논문은 수십억 개의 가상 페르소나를 기반으로 정교한 폴더 구조와 문서를 갖춘 합성 컴퓨터 환경을 생성하여 에이전트가 장기적인 업무를 스스로 학습할 수 있는 기반을 마련했다.
왜 중요한가
현실적인 사무 업무는 개인화된 파일 구조와 복잡한 문서 환경에 의존하지만, 개인정보 보호 문제로 실제 데이터를 학습에 쓰기 어렵다. 이 논문은 수십억 개의 가상 페르소나를 기반으로 정교한 폴더 구조와 문서를 갖춘 합성 컴퓨터 환경을 생성하여 에이전트가 장기적인 업무를 스스로 학습할 수 있는 기반을 마련했다.
핵심 기여
Synthetic Computers at Scale 방법론
대규모 페르소나 풀을 활용하여 사용자별 디렉토리 구조, 파일 명명 규칙, 상호 의존성을 가진 풍부한 콘텐츠의 아티팩트(문서, 스프레드시트 등)를 포함한 가상 컴퓨터 환경을 생성한다.
장기 호라이즌 생산성 시뮬레이션
생성된 환경에서 에이전트가 약 한 달 분량의 업무(평균 2,000턴 이상, 8시간 이상의 런타임)를 수행하며 동료 에이전트와 협업하고 문서를 수정하는 과정을 시뮬레이션한다.
경험적 학습 신호 추출 및 기술화
시뮬레이션 과정에서 발생한 성공 패턴과 실패 모드를 분석하여 직업별 특화 기술(Skill)로 변환하고, 이를 통해 에이전트의 업무 수행 능력을 대폭 개선한다.
핵심 아이디어 이해하기
기존의 AI 에이전트 학습은 단발성 대화나 고립된 작업에 치중되어 있어, 실제 사무 환경처럼 수많은 파일과 과거 이력이 얽힌 복잡한 맥락을 이해하는 데 한계가 있다. Transformer 기반 모델이 긴 문맥을 처리할 수 있게 되었음에도 불구하고, 실제 업무 환경의 파일 시스템과 문서 간의 논리적 연결성(Dependency)을 학습할 데이터가 부족하다는 점이 핵심 문제이다.
이 논문은 '페르소나 → 사용자 프로필 → 파일 시스템 계획 → 아티팩트 생성'으로 이어지는 단계적 구체화 과정을 통해 이 문제를 해결한다. 단순히 무작위 파일을 만드는 것이 아니라, 특정 직업의 사용자가 과거에 어떤 작업을 했고 어떤 동료와 소통했는지에 대한 인과 관계를 그래프 구조로 설계한 뒤 LLM이 이를 바탕으로 실제 열 수 있는 문서를 생성하게 한다.
결과적으로 에이전트는 텅 빈 프롬프트가 아니라, 수백 개의 관련 파일이 존재하는 가상 OS 환경에서 정보를 탐색하고 계획을 수정하며 업무를 완수하는 법을 배운다. 이는 에이전트가 단순한 명령어 실행기를 넘어, 복잡한 업무 환경에 적응하고 스스로 개선되는 자율적 존재로 진화할 수 있는 데이터 인프라를 제공한다.
관련 Figure

추상적인 페르소나가 상세 프로필, 파일 시스템 계획을 거쳐 실제 파일들이 채워진 컴퓨터 환경으로 구체화되는 단계를 시각화했다. 각 단계에서 LLM이 수행하는 역할과 생성되는 정보의 종류를 명확히 정의한다.
페르소나에서 합성 컴퓨터로 이어지는 단계별 생성 프로세스
방법론
합성 컴퓨터 생성 프로세스는 네 단계로 구성된다. 먼저 3.7억 개의 페르소나 데이터셋에서 샘플링하여 구체적인 사용자 프로필을 확장한다. 이후 Filesystem Policy를 생성하여 시스템 시작 시간, 드라이브 레이아웃, 저장 패턴 및 명명 규칙을 정의한다. [사용자 프로필 입력 → LLM 추론 → 운영체제 정책 출력 → 가상 환경의 일관성 확보]
파일 시스템 계획 단계에서는 디렉토리 트리와 파일 간 의존성 그래프(DAG)를 구축한다. 특정 엑셀 파일이 웹에서 다운로드한 PDF를 참조하거나, 나중에 작성될 보고서의 기초가 되는 관계를 명시한다. [의존성 그래프 입력 → 위상 정렬(Topological Sort) 연산 → 생성 순서 결정 → 파일 간 논리적 모순 제거]
아티팩트 생성은 LLM 에이전트가 도구를 사용하여 실제 DOCX, XLSX, PPTX, PDF 파일을 생성하는 과정이다. 의존성 그래프에 따라 이전 단계에서 생성된 파일의 내용을 컨텍스트로 참조하여 다음 파일을 생성함으로써 문서 간 내용의 연속성을 유지한다. [이전 파일 내용 입력 → LLM 생성 → 신규 아티팩트 출력 → 실제 열람 가능한 파일 저장]
시뮬레이션은 Setup Agent와 Work Agent의 상호작용으로 진행된다. Setup Agent는 환경에 맞춰 한 달 치 업무 목표와 가상 협업자들을 설정하고, Work Agent는 주간 및 일간 계획을 세워 파일 탐색, 문서 작성, 협업자 이메일 대응 등을 수행한다. [업무 목표 입력 → 주간/일간 계획 수립 → 도구 실행 및 파일 수정 → 업무 완수 및 로그 기록]
관련 Figure

사용자 페르소나가 파일 시스템과 의존성 그래프를 갖춘 합성 컴퓨터로 변환되는 과정과, 이를 바탕으로 에이전트가 한 달간 업무를 수행하며 학습 신호를 생성하는 루프를 보여준다. 이 구조는 에이전트의 자가 개선을 위한 데이터 생성 파이프라인의 핵심이다.
페르소나로부터 합성 컴퓨터를 생성하고 장기 시뮬레이션을 수행하는 전체 방법론 개요도
주요 결과
1,000개의 합성 컴퓨터를 생성하여 실험한 결과, 시뮬레이션 전 평균 112개였던 파일 수가 한 달간의 업무 수행 후 평균 197개로 증가하며 실제 업무와 유사한 환경 변화를 보였다. Work Agent는 시뮬레이션당 평균 2,272턴을 수행했으며, 전체 프로세스에 약 8.59시간의 벽시계 시간이 소요되었다.
시뮬레이션에서 추출한 경험적 신호를 기술(Skill)로 변환하여 적용했을 때, In-domain 평가에서 에이전트의 평균 점수가 61.6%에서 68.6%로 7.0pp 향상되었다. 특히 900개의 시뮬레이션 데이터를 학습했을 때 베이스라인 대비 승률이 83%에 달해 데이터 규모에 따른 성능 확장성(Scaling Law)을 입증했다.
Out-of-domain 평가인 GDPVal 벤치마크에서도 시뮬레이션 기반 기술을 장착한 에이전트가 유의미한 성능 향상을 보였다. Claude 3.5 Sonnet 모델 기준으로 105개 작업에서 승리하고 67개에서 패배하여(p=0.005), 합성 환경에서의 학습이 일반적인 생산성 작업으로 전이될 수 있음을 확인했다.
관련 Figure

학습에 사용된 합성 컴퓨터 환경이 많아질수록 베이스라인 대비 에이전트의 승률이 50%에서 83%까지 선형적으로 증가함을 보여준다. 이는 제안된 방법론이 대규모 컴퓨팅 자원을 통해 성능을 확장할 수 있음을 입증하는 결과이다.
학습용 컴퓨터 수(N) 증가에 따른 에이전트의 성능 향상 그래프
기술 상세
본 연구는 에이전트의 경험적 학습을 위해 '프로세스 신호'와 '결과 신호'를 모두 활용한다. 중간 궤적은 에이전트가 어떻게 검색하고 계획을 수정하는지 기록하며, 최종 결과물은 루브릭 기반 평가를 통해 품질 신호를 제공한다. 이러한 신호들은 직업별로 그룹화되어 LLM에 의해 정제된 'Skill' 라이브러리로 구축된다.
아키텍처 측면에서 Claude Code SDK를 런타임으로 사용하며, 오피스 문서 생성을 위해 MiniMax의 오픈소스 도구(minimax-docx 등)를 통합했다. 시뮬레이션 중 발생하는 'Blank Message' 오류 등을 분석하여 에이전트의 컨텍스트 윈도우 한계나 계획 용량 부족 문제를 식별하고, 이를 해결하기 위한 12가지 실무 권장 사항을 제시한다.
특히 파일 간 의존성(Cross-file dependency)을 DAG로 관리하여 합성 데이터의 고질적 문제인 '문서 간 내용 불일치'를 최소화했다. 이는 단순한 텍스트 생성을 넘어 구조화된 지식 환경을 구축했다는 점에서 기존의 합성 데이터 연구와 차별화된다.
한계점
에이전트가 생성한 아티팩트의 시각적 스타일이나 포맷이 여전히 다소 획일적이며, 실제 컴퓨터에 존재하는 일상적인 노이즈(임시 다운로드, 중복 초안 등)가 부족하다는 한계가 있다. 또한 현재의 가상 협업자들은 주로 수동적으로 반응하는 수준에 머물러 있다.
실무 활용
기업용 AI 에이전트의 성능을 실제 고객 데이터 없이도 고도화할 수 있는 강력한 프레임워크를 제공한다. 특히 장기적인 프로젝트 관리나 복잡한 문서 작업이 필요한 도메인에서 에이전트의 자가 학습(Self-improvement) 루프를 구축하는 데 활용 가능하다.
- 금융/법률 등 전문직 에이전트의 복잡한 문서 체계 이해 및 장기 업무 계획 학습
- 실제 데이터 노출 없이 가상 환경에서 에이전트의 보안 및 컴플라이언스 준수 여부 테스트
- 에이전트용 강화학습(RL)을 위한 대규모 고품질 합성 궤적(Trajectory) 데이터 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.