Monday.com의 AI 서비스 에이전트를 위한 평가 기반 개발 프레임워크 구축 사례

핵심 요약

Monday.com은 자사의 AI Native ESM 플랫폼인 'monday Service'를 구축하며 평가를 개발 초기 단계부터 도입했다. LangGraph 기반의 ReAct 에이전트가 가진 불확실성을 해결하기 위해 오프라인과 온라인의 이중 레이어 평가 전략을 수립했다. 특히 Vitest와 LangSmith를 통합하여 평가 속도를 8.7배 향상시켰으며, 모든 평가 로직을 코드로 관리하는 Evaluations as Code(EaC) 체계를 구축하여 안정적인 프로덕션 운영을 실현했다. 이 프레임워크는 수백 개의 사례를 몇 분 만에 테스트하고 실시간으로 멀티턴 대화의 품질을 모니터링할 수 있게 한다.

배경

LangChain 및 LangGraph 프레임워크에 대한 이해, LLM-as-a-judge 개념 및 평가 방법론, Vitest 등 JavaScript/TypeScript 테스트 프레임워크 사용 경험, CI/CD 및 GitOps 워크플로우 지식

대상 독자

프로덕션 환경에서 LLM 에이전트를 구축하고 평가 체계를 자동화하려는 엔지니어 및 팀장

의미 / 영향

이 사례는 LLM 에이전트의 신뢰성을 확보하기 위해 소프트웨어 공학의 테스트 원칙을 AI 개발에 어떻게 이식해야 하는지 보여준다. 특히 평가 속도 개선과 코드 기반 관리 방식은 대규모 엔터프라이즈 환경에서 AI 서비스를 안정적으로 운영하기 위한 표준 모델이 될 것으로 예상된다.

섹션별 상세

오프라인 평가는 골든 데이터셋을 기반으로 유닛 테스트처럼 작동하며 핵심 로직을 검증한다. 근거 기반 답변(Groundedness), 검색 정확도, 도구 호출의 적절성 등을 테스트하여 프롬프트 수정이 기존 기능을 망가뜨리지 않도록 방지한다. 초기에는 30개의 실제 IT 티켓 데이터를 활용해 런타임 상태, 출력 형식, 상태 유지 여부 등을 확인하는 단순 체크에서 시작했다. 이후 지식 베이스(KB) 활용 시점이나 가드레일 작동 순서와 같은 세밀한 궤적 분석으로 범위를 확장했다.

평가 루프의 병목 현상을 해결하기 위해 Vitest와 LangSmith를 결합한 하이브리드 병렬 처리 방식을 도입했다. Vitest의 pool:'forks' 설정을 통해 CPU 집약적인 작업을 여러 코어에 분산하고, ls.describe.concurrent를 사용해 I/O 바운드인 LLM 호출을 비동기로 처리했다. 이 최적화를 통해 20개의 IT 티켓 평가 시간을 162초에서 18초로 단축하며 8.7배의 성능 향상을 달성했다. 빠른 피드백 루프는 개발자가 품질 저하 없이 높은 속도로 기능을 배포할 수 있는 기반이 되었다.

실제 프로덕션 환경의 예측 불가능성에 대응하기 위해 실시간 멀티턴 대화 평가 시스템을 구축했다. 단일 응답의 정확도만 측정하는 대신 전체 대화 궤적을 분석하여 사용자 만족도와 목표 달성 여부를 판정한다. LangSmith의 Multi-Turn Evaluator를 활용해 특정 시간 동안 활동이 없는 세션을 자동으로 종료하고 평가 대상으로 지정한다. 이를 통해 자동 해결률(Automated Resolution)과 같은 비즈니스 지표를 실시간으로 추적하고 개선할 수 있다.

모든 평가 로직과 프롬프트를 TypeScript 코드로 정의하고 관리하는 Evaluations as Code(EaC) 체계를 수립했다. 평가용 '판사(Judge)' 모델의 설정을 코드 저장소에 포함시켜 버전 관리, 피어 리뷰, CI/CD 파이프라인 통합이 가능해졌다. 커스텀 CLI 명령어인 yarn eval deploy를 실행하면 로컬의 프롬프트 정의와 평가 규칙이 LangSmith 플랫폼과 자동으로 동기화된다. 이 과정에서 사용되지 않는 좀비 평가 규칙을 식별하고 삭제하는 정리 작업도 함께 수행된다.