Monday.com의 AI 서비스 에이전트를 위한 평가 기반 개발 프레임워크 구축 사례

핵심 요약

Monday.com은 자사의 AI 서비스 에이전트 개발 과정에서 평가를 'Day 0' 요구사항으로 설정하고, 오프라인과 온라인을 아우르는 이중 레이어 평가 프레임워크를 구축했다. 오프라인 평가에서는 Vitest와 LangSmith를 결합하여 병렬 처리를 구현함으로써 피드백 루프 속도를 8.7배 향상시켰으며, 온라인 평가에서는 실제 운영 트래픽을 실시간으로 모니터링하는 멀티 턴 평가기를 도입했다. 또한 모든 평가 로직을 TypeScript 코드로 관리하고 CI/CD 파이프라인을 통해 배포하는 '코드로서의 평가(Evaluations as Code)' 방식을 채택하여 개발 생산성과 신뢰성을 동시에 확보했다.

배경

LLM 에이전트 기본 개념, LangChain/LangGraph 이해, Vitest 또는 Jest 등 테스트 프레임워크 경험, CI/CD 파이프라인 기초

대상 독자

LLM 에이전트를 프로덕션 환경에서 운영하고 평가 자동화를 고민하는 개발자 및 팀장

의미 / 영향

AI 에이전트의 복잡성이 증가함에 따라 단순한 단위 테스트를 넘어선 체계적인 평가 프레임워크의 중요성이 커지고 있다. Monday.com의 사례는 평가를 소프트웨어 엔지니어링의 영역으로 끌어들여 자동화하고 가속화하는 표준적인 방법론을 제시한다.

섹션별 상세

Monday.com은 AI 에이전트의 자율성으로 인한 예기치 못한 오류를 방지하기 위해 오프라인과 온라인의 이중 레이어 평가 전략을 수립했다. 오프라인 평가는 '안전망' 역할을 하며 골든 데이터셋을 기반으로 도구 호출 정확도, 근거 기반 답변(Groundedness) 등을 검증한다. 반면 온라인 평가는 실제 운영 환경에서 비즈니스 지표를 실시간으로 모니터링하여 에이전트의 성능을 지속적으로 추적한다. 이러한 이중 구조를 통해 개발 단계의 논리적 오류와 실제 배포 후의 사용자 경험 문제를 모두 포착할 수 있다.

평가 속도 저하 문제를 해결하기 위해 Vitest의 병렬 실행 기능과 LangSmith의 동시성 제어 기능을 결합하여 피드백 루프를 162초에서 18초로 단축했다. CPU 집약적인 작업은 Vitest의 'forks' 풀을 통해 여러 코어에 분산 처리하고, I/O 대기 시간이 긴 LLM 호출은 동시성 제어를 통해 수십 개의 평가를 한꺼번에 실행한다. 이러한 하이브리드 병렬화 방식은 데이터셋 규모가 커지더라도 개발자가 지연 없이 결과를 확인할 수 있는 환경을 제공한다.

단일 응답 평가의 한계를 넘어 대화 전체의 흐름을 분석하는 '멀티 턴 평가기(Multi-Turn Evaluator)'를 도입하여 사용자 만족도와 목표 달성 여부를 측정한다. LangSmith의 기능을 활용해 세션 종료 시점을 정의하는 비활성 창 설정과 비용 효율적인 샘플링 비율을 적용함으로써 복잡한 대화 궤적에 대한 가시성을 확보했다. 이를 통해 에이전트가 단순히 질문에 답하는 것을 넘어 사용자를 해결책으로 얼마나 잘 유도하는지 정성적으로 평가할 수 있다.

평가 로직을 프로덕션 코드와 동일하게 관리하는 '코드로서의 평가(EaC)' 체계를 구축하여 GitOps 방식의 운영을 실현했다. TypeScript로 정의된 평가기 객체는 커스텀 CLI 명령어를 통해 LangSmith 플랫폼과 자동으로 동기화되며, 이를 통해 프롬프트 버전 관리와 피어 리뷰가 가능해졌다. 또한 Cursor나 Claude Code와 같은 AI IDE를 활용해 평가 프롬프트를 직접 수정하고 테스트하는 워크플로우를 구축하여 개발 생산성을 높였다.

이미지 분석

</> 코드 예제 포함

실무 Takeaway

AI 에이전트 개발 시 평가를 사후 검증이 아닌 초기 설계 단계(Day 0)부터 포함시켜 품질 저하를 조기에 방지해야 한다.
병렬 처리와 동시성 제어를 결합한 하이브리드 평가 아키텍처를 통해 수백 개의 테스트 케이스에 대한 피드백 시간을 90% 가까이 절감할 수 있다.
평가 로직을 코드로 관리(EaC)하고 CI/CD에 통합함으로써 인프라의 일관성을 유지하고 개발 도구와의 시너지를 극대화할 수 있다.

언급된 리소스

문서LangSmith Vitest Integration

GitHubOpenEvals