Rubric-eval: AI 에이전트 행동 테스트 및 CI/CD 통합 도구

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Rubric-eval은 LLM 에이전트의 최종 응답뿐만 아니라 도구 호출, 인자, 추론 과정, 지연 시간 등 내부 행동을 검증하는 오픈소스 테스트 프레임워크이다. 기존 평가 방식이 놓치기 쉬운 에이전트의 잘못된 도구 사용이나 비효율적인 추론 경로를 CI/CD 단계에서 사전에 탐지한다. 별도의 복잡한 설정 없이 기존 메시지 기록이나 LangGraph 트레이스를 활용하며, 로컬 환경에서 실행되어 데이터 보안을 보장한다. GitHub Action을 통해 PR마다 베이스라인과 결과를 비교하고 회귀 테스트를 수행하여 에이전트의 안정성을 확보한다.

배경

Python, LLM 에이전트 개발 경험, CI/CD 파이프라인 이해

대상 독자

프로덕션 환경에서 LLM 에이전트를 개발하고 배포하는 엔지니어

의미 / 영향

이 도구는 에이전트의 행동을 정량적으로 평가할 수 있게 하여, 복잡한 에이전트 시스템의 안정성을 높이고 CI/CD 파이프라인에 통합함으로써 배포 전 회귀 테스트를 자동화하는 데 기여한다.

섹션별 상세

에이전트의 최종 출력물만 평가하는 기존 방식은 잘못된 도구 호출이나 불필요한 추론 과정을 탐지하지 못하는 한계가 있다. Rubric-eval은 도구 호출 정확도, 추론 품질, 지연 시간, 비용 등 에이전트의 내부 행동을 직접 측정하여 이러한 회귀를 방지한다.

LangGraph, OpenAI 도구 호출 루프 등 기존 에이전트 프레임워크와 즉시 연동된다. 별도의 콜백이나 복잡한 설정 없이 에이전트가 생성한 메시지 기록을 입력받아 테스트 케이스를 구성한다.

python

report = rubric.evaluate(test_cases=rubric.run_langgraph(agent, scenarios=[rubric.AgentScenario(input="Where is my order #ORD-9821?", expected_tools=["lookup_order"],),rubric.AgentScenario(input="My account is locked, this is urgent.", expected_tools=["create_ticket"], forbidden_tools=["send_email"],),]),metrics=[rubric.ToolCallAccuracy(), rubric.TraceQuality(), rubric.LatencyMetric(max_ms=3000)],output_html="report.html",output_json="report.json",)

LangGraph 에이전트의 도구 호출 정확도, 추론 품질, 지연 시간을 검증하는 테스트 실행 예시

CI/CD 환경에 최적화되어 PR마다 에이전트의 성능 변화를 추적한다. 베이스라인 파일과 현재 결과를 비교하여 점수 하락이나 회귀 발생 시 즉시 알림을 제공하며, 로컬과 동일한 환경에서 테스트를 수행한다.

yaml

- uses: Kareem-Rashed/rubric-eval@v0.2.0
  with:
    eval-file: evals/regression.py
    baseline: evals/baseline.json
  env:
    OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}

GitHub Actions를 사용하여 CI 파이프라인에서 에이전트 평가를 자동화하는 설정

ToolCallAccuracy, TraceQuality, LatencyMetric 등 다양한 내장 메트릭을 제공하며, BaseMetric을 상속하여 사용자 정의 메트릭을 쉽게 추가할 수 있다. 모든 테스트 결과는 단일 HTML 파일로 생성되어 별도의 서버 없이도 상세 분석이 가능하다.

실무 Takeaway

에이전트의 최종 응답뿐만 아니라 도구 호출 순서와 인자 등 내부 행동을 테스트하여 프롬프트 변경으로 인한 회귀를 방지한다.
GitHub Action을 활용해 CI 파이프라인에 에이전트 평가를 통합하고, 베이스라인과 비교하여 성능 저하를 자동으로 감지한다.
로컬 환경에서 제로 의존성으로 실행되므로 데이터 외부 유출 없이 안전하게 에이전트의 행동을 검증할 수 있다.

언급된 리소스

GitHubRubric-eval GitHub

report = rubric.evaluate(test_cases=rubric.run_langgraph(agent, scenarios=[rubric.AgentScenario(input="Where is my order #ORD-9821?", expected_tools=["lookup_order"],),rubric.AgentScenario(input="My account is locked, this is urgent.", expected_tools=["create_ticket"], forbidden_tools=["send_email"],),]),metrics=[rubric.ToolCallAccuracy(), rubric.TraceQuality(), rubric.LatencyMetric(max_ms=3000)],output_html="report.html",output_json="report.json",)

Rubric-eval: AI 에이전트 행동 테스트 및 CI/CD 통합 도구

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

Rubric-eval: AI 에이전트 행동 테스트 및 CI/CD 통합 도구

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드