AI 에이전트 시대를 위한 합성 데이터의 산업화와 인프라 전략

핵심 요약

전통적인 합성 데이터는 부족한 데이터셋을 보완하는 보조적 수단이었으나, 자율형 AI 에이전트의 등장으로 그 역할과 규모가 완전히 변했다. 현대의 합성 데이터는 단순한 문답 쌍이 아니라 복잡한 계획, 추론 트레이스, 외부 도구 사용 과정을 포함하는 긴 시퀀스로 구성된다. 이러한 고품질 데이터를 생산하기 위해서는 다중 에이전트 오케스트레이션, 실시간 코드 실행 검증, 대규모 중복 제거 파이프라인이 필수적이다. 결과적으로 합성 데이터 생성은 GPU 중심의 추론을 넘어 CPU와 샌드박스 환경이 통합된 산업적 규모의 엔지니어링 문제로 전환되었다.

배경

LLM 추론 및 파인튜닝 기본 개념, 분산 컴퓨팅 프레임워크(Ray, SLURM)에 대한 이해, 에이전트 워크플로우 및 도구 사용(Tool Use) 메커니즘

대상 독자

AI 인프라 엔지니어, LLM 학습 데이터 전략가, 자율형 에이전트 개발자

의미 / 영향

합성 데이터 생성이 '데이터 공장' 모델로 전환됨에 따라 기업의 경쟁력은 모델 자체보다 고품질 데이터를 지속적으로 생산하고 검증하는 인프라 역량에서 결정될 것이다. 이는 GPU 중심의 투자에서 벗어나 컴퓨팅, 스토리지, 오케스트레이션이 통합된 현대적 AI 스택(PARK stack)으로의 전환을 가속화할 전망이다.

섹션별 상세

합성 데이터의 기본 단위가 단순 텍스트에서 복잡한 추론 트레이스로 대형화되었다. 에이전트 학습을 위해서는 모델이 문제를 해결하는 단계별 사고 과정과 도구 사용 이력을 모두 포함해야 하며, 이는 단일 샘플당 수천 개의 토큰과 수십 번의 모델 호출을 요구한다. 결과적으로 데이터 한 건을 생성하는 데 필요한 컴퓨팅 비용이 과거보다 10~20배 이상 증가했다.

데이터 생성 프로세스가 단일 모델 호출에서 다중 에이전트 워크플로우로 진화했다. 페르소나 설정, 콘텐츠 생성, 톤 정제 등 각 단계를 서로 다른 에이전트가 담당하는 구조가 일반화되면서 수백만 건의 데이터를 만들 때 필요한 추론 호출 횟수가 기하급수적으로 늘어났다. 이는 단순한 스크립트 실행이 아니라 정교한 스케줄링과 추적 시스템이 필요한 복잡한 인프라 작업이다.

품질 관리를 위해 단계별 검증(Turn-level validation) 시스템이 도입되었다. 긴 추론 과정 중 초기 단계의 사소한 오류가 전체 데이터를 무용지물로 만드는 것을 방지하기 위해, 매 단계마다 'LLM 판사(LLM-as-a-judge)'가 결과를 검증한다. 20단계의 작업이라면 한 건의 유효한 데이터를 얻기 위해 50번 이상의 AI 연산이 수행되기도 하며, 이는 검증 작업 자체가 거대한 추론 부하가 됨을 의미한다.

도구 사용 에이전트의 신뢰성을 확보하기 위해 실제 실행 환경에서의 검증이 필수적이다. 모델이 생성한 코드가 실제로 작동하는지 확인하기 위해 실시간으로 파이썬 스크립트를 실행하거나 API 호출 결과를 확인하는 과정이 포함된다. 이는 GPU 인프라 외에도 수천 개의 격리된 컨테이너(Sandbox)를 동시에 운영할 수 있는 CPU 및 메모리 자원을 요구한다.

메타의 Matrix 시스템은 이러한 산업적 데이터 공장의 전형적인 사례를 보여준다. Matrix는 SLURM과 Ray 기반의 오픈소스 스택을 사용하여 12,000개 이상의 작업을 동시에 처리하고 4시간 만에 20억 토큰의 텍스트를 생성하는 성능을 입증했다. 특히 도구 사용 검증을 위해 1,500개의 컨테이너를 동시에 실행하며, 중앙 제어 장치 없이 각 작업이 독립적으로 진행되어 유휴 시간을 최소화한다.