Anthropic의 관리형 에이전트 인프라 구축 아키텍처 분석

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Anthropic은 관리형 에이전트(Managed Agents) 서비스를 위해 세션 로그, 추론 하네스, 실행 샌드박스를 독립적으로 확장 가능한 컴포넌트로 분리한 엔지니어링 아키텍처를 구축했다. 추론 프로세스가 컨테이너 프로비저닝을 기다리지 않도록 설계하여 p50 기준 첫 토큰 생성 시간을 60%, p95 기준 90% 이상 단축하는 성과를 거두었다. 보안 강화를 위해 OAuth 토큰과 같은 자격 증명은 외부 금고에 보관하고 프록시를 통해 주입하며, 모든 실행 환경은 일회성 컨테이너로 처리한다. 이 구조는 운영체제 수준의 가상화와 Kubernetes의 상태-연산 분리 개념을 차용하여 에이전트의 안정성과 효율성을 동시에 확보했다.

배경

Kubernetes 아키텍처에 대한 기본 이해, LLM 추론 지연 시간(TTFT) 개념, 컨테이너 가상화 및 보안 샌드박스 지식

대상 독자

AI 에이전트 인프라를 설계하는 엔지니어 및 MLOps 전문가

의미 / 영향

Anthropic의 이번 발표는 AI 에이전트 서비스의 표준 아키텍처를 제시하며, 특히 지연 시간과 보안 문제를 해결하는 구체적인 방법론을 공유했다는 점에서 의미가 큽니다. 이는 향후 기업용 에이전트 플랫폼들이 성능 최적화를 위해 Kubernetes와 유사한 상태 분리 구조를 채택하는 계기가 될 것입니다.

섹션별 상세

기존 에이전트 실행 환경은 컨테이너 준비 과정에서 발생하는 지연 시간이 병목 구간이었다. Anthropic은 추론 하네스를 상태 비저장(Stateless) 방식으로 설계하고 실행 샌드박스를 독립적으로 분리하여 추론이 컨테이너 프로비저닝을 기다리지 않게 했다. 이를 통해 p50 기준 첫 토큰 생성 시간(TTFT)은 60%, p95 기준으로는 90% 이상 감소하는 성능 향상을 달성했다. 에이전트 응답 속도가 비약적으로 빨라져 실시간 상호작용 품질이 개선됐다.

근거

p50 첫 토큰 생성 시간이 60%, p95는 90% 이상 감소했다. — 본문 중 'p50 time-to-first-token dropped 60 percent, p95 dropped over 90 percent' 문구

에이전트가 비정상적으로 종료될 경우 진행 상황을 잃어버리는 문제가 발생할 수 있다. 시스템은 모든 이벤트를 추가 전용(Append-only) 이벤트 로그에 기록하며, 특정 인스턴스가 충돌하더라도 새 인스턴스가 로그를 기반으로 즉시 작업을 재개한다. 컨테이너를 소모품(Disposable)으로 취급함으로써 시스템 전체의 복원력을 높였다. 장애 발생 시에도 사용자 경험의 단절 없이 안정적인 서비스 유지가 가능하다.

샌드박스 환경 내부에 직접 자격 증명을 저장하는 방식은 보안 취약점을 야기한다. OAuth 토큰 등 민감한 정보는 외부 금고(Vault)에 저장하고, 실행 시점에 프록시를 통해서만 주입되는 구조를 채택했다. 샌드박스 내부에는 어떠한 영구적 자격 증명도 들어가지 않아 탈취 위험을 원천적으로 차단했다. 기업용 에이전트 서비스에서 요구되는 높은 수준의 보안 표준을 충족한다.

근거

자격 증명은 샌드박스에 직접 들어가지 않고 외부 금고에서 프록시를 통해 주입된다. — 본문 중 'Credentials never enter sandboxes; OAuth tokens sit in external vaults and get injected through proxies' 문구

용어 해설

Managed Agents: — 사용자가 직접 인프라를 구축하지 않고도 AI 에이전트를 실행할 수 있도록 기업에서 제공하는 호스팅 서비스이다. 세션 관리, 보안 샌드박스, 추론 엔진 등을 통합 제공하여 개발자가 에이전트 로직에만 집중할 수 있게 돕는다.
Inference Harness: — AI 모델의 추론 과정을 관리하고 실행 환경과 연결하는 제어 계층이다. Anthropic의 구조에서는 이를 상태 비저장(Stateless) 방식으로 설계하여 특정 인스턴스에 장애가 발생해도 시스템 전체의 안정성을 유지한다.
Execution Sandbox: — AI 에이전트가 코드를 실행하거나 외부 도구와 상호작용할 때 보안을 위해 격리된 환경이다. 외부 자격 증명이 직접 노출되지 않도록 설계되어 보안 사고를 방지하고 일회성 컨테이너 형태로 운영된다.
Time-to-First-Token (TTFT): — 사용자의 요청 후 모델이 첫 번째 응답 토큰을 출력할 때까지 걸리는 지연 시간이다. 에이전트 시스템에서는 컨테이너 프로비저닝 시간과 직결되어 사용자 경험을 결정하는 핵심 지표로 활용된다.

언급된 리소스

문서How Anthropic Built Managed Agents Infrastructure