핵심 요약
영업 및 성장 지원 플랫폼인 Clay는 월 3억 건 이상의 AI 에이전트 실행을 처리하며 복잡한 영업 워크플로를 자동화하고 있다. 각 에이전트 실행은 웹 스크래핑, 데이터 합성, 맞춤형 메시지 작성 등 10-30단계의 추론 과정을 포함하며, 대규모 운영에 따른 품질 저하와 비용 상승이 주요 과제로 부상했다. Clay는 이를 해결하기 위해 LangSmith를 관측성 및 평가의 핵심 도구로 도입하여 실제 트래픽 기반의 품질 관리와 모델별 비용 최적화를 실현했다. 이를 통해 다양한 모델 제공업체를 유연하게 활용하면서도 서비스의 신뢰성을 유지하고 있다.
배경
AI 에이전트 개념, LLM 관측성(Observability), API 비용 구조
대상 독자
대규모 AI 에이전트 서비스를 운영하거나 준비 중인 엔지니어 및 프로덕트 매니저
의미 / 영향
AI 에이전트가 실험 단계를 넘어 대규모 프로덕션 환경으로 전이됨에 따라, LangSmith와 같은 LLM 관측성 도구가 필수적인 인프라로 자리 잡고 있음을 보여준다. 이는 복잡한 에이전트 워크플로의 신뢰성을 보장하는 표준 모델이 되고 있다.
섹션별 상세
Clay는 고객 발굴(Find), 계약 체결(Close), 계정 확장(Grow)의 전 과정에 AI 에이전트를 통합하여 운영한다. 각 에이전트 실행은 단순한 텍스트 생성을 넘어 웹 페이지 크롤링과 구조화된 데이터 추출을 포함하는 10-30단계의 복잡한 추론 단계를 거친다. 사용자가 자연어로 입력하는 자유로운 요청을 처리하기 위해 에이전트는 무한에 가까운 작업 범위를 수행하며, 이는 월 3억 건이라는 대규모 실행량으로 이어진다.
대규모 에이전트 운영에서 발생하는 품질 예측의 어려움과 비용 관리 문제를 해결하기 위해 LangSmith를 도입했다. 오프라인 벤치마크만으로는 실제 사용자의 다양한 도메인에서 발생하는 품질 저하를 포착하기 어렵기 때문에 실제 트래픽 관측이 필수적이다. Clay는 LangSmith를 통해 실시간 실행 데이터를 모니터링하고, 예상치 못한 에이전트 동작이나 품질 회귀(Regression)를 조기에 발견하여 대응한다.
Clay는 Anthropic, OpenAI 등 다양한 모델 제공업체를 지원하며, 작업 특성에 맞는 최적의 모델을 자동으로 매핑하는 메타 프롬프터(Meta-prompter)를 운영한다. 모델마다 비용 구조와 성능이 다르기 때문에 대규모 실행 시 발생하는 추론 비용을 정교하게 관리해야 한다. LangSmith의 추적 기능을 활용해 각 단계별 비용을 분석하고, 성능 저하 없이 비용 효율적인 모델로 전환할 수 있는 의사결정 근거를 확보한다.
실무 Takeaway
- 대규모 AI 에이전트 시스템에서는 오프라인 벤치마크보다 실제 운영 트래픽 기반의 관측성(Observability) 확보가 품질 유지의 핵심이다.
- 멀티 모델 전략을 채택할 경우, 각 작업의 복잡도에 따라 모델을 동적으로 할당하는 메타 프롬프팅 체계를 구축하여 비용과 성능의 균형을 맞춰야 한다.
- 에이전트의 추론 단계가 많아질수록 각 단계별 가시성을 확보해야 병목 지점과 오류 발생 원인을 정확히 파악할 수 있다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료