Clay가 LangSmith를 활용하여 월 3억 건의 AI 에이전트 실행을 관리하는 방법 | AI Trends

Clay가 LangSmith를 활용하여 월 3억 건의 AI 에이전트 실행을 관리하는 방법

Clay의 AI 책임자 Jeff Barg가 LangSmith를 활용해 대규모 에이전트 시스템의 관측 가능성, 평가, 99.5%의 비용 정산 정확도를 달성한 실전 사례를 공유합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

에이전트가 수백만 건 이상 실행되는 규모에서는 LangSmith와 같은 전문 도구를 통한 추적(Tracing)과 평가(Eval)가 품질 유지와 비용 관리의 핵심이다.

배경

기업용 성장 자동화 플랫폼인 Clay는 수많은 AI 에이전트를 통해 고객 발굴 및 관리 프로세스를 자동화하고 있습니다.

대상 독자

AI 에이전트를 개발하고 배포하려는 엔지니어 및 MLOps 전문가

의미 / 영향

Clay의 사례는 AI 에이전트가 단순한 실험을 넘어 대규모 프로덕션 환경에서 비즈니스 가치를 창출할 수 있음을 입증한다. LangSmith와 같은 MLOps 도구의 도입은 에이전트의 신뢰성을 높이고 운영 비용을 최적화하여 기업이 AI 기반 자동화를 공격적으로 확장할 수 있는 토대를 제공한다. 향후 자기 치유 워크플로와 서브에이전트 구조가 일반화되면서 소프트웨어 개발 및 운영 방식에 근본적인 변화가 일어날 것이다.

챕터별 상세

00:00

Clay의 AI 철학: 찾고, 닫고, 성장시키기

Clay는 고객을 찾고(Find), 계약을 체결하며(Close), 관계를 성장시키는(Grow) 비즈니스의 각 단계에 AI 에이전트를 도입했다. 각 단계의 동사형 작업마다 전용 에이전트가 존재하며, 이는 단순한 텍스트 생성을 넘어 실제 비즈니스 워크플로를 수행한다. 에이전틱 검색 제품을 통해 타겟 고객을 발굴하고, 리서치와 추론을 통해 해당 기업이 적합한지 판단하는 과정을 자동화했다. 결과적으로 사용자는 복잡한 데이터 수집과 분석 과정을 에이전트에게 위임할 수 있게 되었다.

01:09

단순 래퍼에서 자율 에이전트 Claygent로의 진화

초기 Clay는 단순한 채팅 완성(Chat Completions) API의 래퍼 수준에서 시작하여 긴 문서를 요약하거나 이메일 초안을 작성하는 기능을 제공했다. 그러나 사용자들이 웹 페이지를 스크래핑하고 AI를 통해 결정론적으로 통찰을 추출하려는 행동 패턴을 보이면서 자율 웹 리서치 에이전트인 Claygent를 2023년 중반에 출시했다. Claygent는 GPT-4 출시 직후 등장하여 사용자의 의도에 따라 스스로 웹을 탐색하고 정보를 합성한다. 이는 정적인 데이터 제공을 넘어 동적인 리서치 수행으로의 패러다임 전환을 의미했다.

02:34

월 3억 건의 에이전트 실행 규모와 복잡성

현재 Clay는 매월 약 3억 건의 에이전트 실행(Agent Runs)을 처리하고 있으며, 이는 비즈니스 성장과 함께 실행 비중이 급격히 증가한 결과이다. 하나의 에이전트 실행은 평균 10단계에서 30단계의 복잡한 과정을 거치며, 여기에는 웹 문서 합성, 검색, 크롤링 등이 포함된다. 대규모 실행 환경에서는 개별 에이전트의 동작을 일일이 모니터링하는 것이 불가능해지므로 시스템적인 접근이 필수적이다. 이러한 규모 확장은 모델 아키텍처와 인프라 모두에 높은 신뢰성을 요구한다.

04:06

품질 측정 방법론: 결정론적 체크와 LLM-as-a-Judge

에이전트의 품질을 측정하기 위해 Clay는 세 가지 핵심 지표인 품질, 처리량(Throughput), 비용에 집중한다. 품질 평가는 에이전트가 정답을 맞혔는지 확인하는 단순 팩트 체크부터 시작하여 정답셋(Ground Truth)과 비교하는 방식을 사용한다. 리서치 결과와 같이 긴 텍스트 응답의 경우 LLM-as-a-Judge 기법을 도입하여 LLM이 직접 결과물의 논리성과 정확성을 채점하도록 설계했다. 또한 구조화된 출력을 유도하여 결정론적인 매칭이 가능한 부분은 자동화된 코드로 검증한다.

LLM-as-a-Judge는 사람이 일일이 평가하기 어려운 대량의 LLM 응답을 다른 고성능 LLM(예: GPT-4)을 이용해 평가하는 기법입니다.

04:52

모델 불가지론적 접근과 메타프롬프터 도구

Clay는 특정 모델에 종속되지 않는 모델 불가지론(Model-agnostic) 전략을 취하며 사용자가 Anthropic이나 OpenAI 등 선호하는 모델을 선택할 수 있게 한다. 이를 위해 프롬프트를 각 모델의 특성에 맞춰 자동으로 매핑해주는 메타프롬프터(Metaprompter) 도구를 자체 개발하여 운영 중이다. 각 모델마다 쓰기 스타일이나 작업 수행 능력이 다르기 때문에, 평가 데이터를 기반으로 특정 유즈케이스에 최적화된 모델을 추천한다. 새로운 모델이 출시될 때마다 평가 시스템을 통해 성능을 검증하고 메타프롬프터의 매핑 로직을 업데이트한다.

06:01

LangSmith를 통한 개발 워크플로 최적화

에이전트 개발 수명 주기 전반에 LangSmith를 도입하여 프로덕션 트래픽의 프로파일링과 오프라인 평가를 수행한다. 개발 초기 단계(Day Zero)부터 추적(Tracing) 기능을 활성화하여 에이전트의 내부 동작 과정을 시각화하고 디버깅한다. 특히 수많은 단계로 구성된 에이전트 실행에서 어느 지점에서 오류가 발생했는지, 혹은 지연 시간이 길어지는지 즉각적으로 파악할 수 있다. 이는 블랙박스 형태의 에이전트 동작을 투명하게 만들어 반복적인 개선(Iteration) 속도를 높여준다.

11:12

비용 관리의 혁신: 99.5%의 비용 정산 정확도

LangSmith 도입 전에는 여러 모델 공급자별로 발생하는 추론 비용을 정확히 파악하고 매칭하는 데 어려움이 있었다. LangSmith의 관측 기능을 활용한 결과, 공급자로부터 청구되는 실제 비용과 시스템 내 데이터 간의 정산 정확도를 99.5%까지 끌어올렸다. 이를 통해 재무 팀은 어떤 고객이나 제품 기능에서 비용이 발생하는지 명확히 이해할 수 있게 되었다. 대규모 운영 환경에서 이러한 가시성은 수익성 분석과 자원 배분의 핵심적인 근거가 된다.

13:15

에이전트의 미래: 서브에이전트와 자기 치유 워크플로

향후 에이전트 시스템은 더 긴 실행 시간과 더 많은 단계를 가진 복잡한 구조로 진화할 것이며, 서브에이전트(Sub-agents) 간의 협업이 중요해질 전망이다. Clay는 에이전트가 실행 중 발생한 오류를 스스로 인지하고 수정하는 자기 치유(Self-healing) 워크플로를 실험하고 있다. LangSmith의 추적 데이터를 코딩 에이전트에게 전달하여 프로덕션에서 발생한 문제를 자동으로 수정하게 하는 루프를 구상 중이다. 또한 에이전트의 기억(Memory) 기능을 개선하여 장기적인 작업 수행 능력을 높이는 연구를 지속하고 있다.

실무 Takeaway

에이전트 개발 첫날(Day Zero)부터 추적(Tracing) 기능을 활성화하여 내부 동작의 가시성을 확보해야 디버깅과 개선 속도를 높일 수 있다
대규모 에이전트 운영 시 품질, 처리량, 비용이라는 세 가지 축을 기준으로 평가 지표를 설정하고 관리하는 것이 필수적이다
LLM-as-a-Judge와 결정론적 검증을 혼합하여 사용하면 정성적인 리서치 결과물도 정량적으로 평가할 수 있다
LangSmith와 같은 관측 도구를 활용하면 복잡한 멀티 모델 환경에서도 99% 이상의 비용 정산 정확도를 달성할 수 있다

언급된 리소스

문서LangSmith Platform

문서Vercel AI SDK

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 05. 06.수집 2026. 05. 06.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.