LangSmith와 AWS를 활용한 AI 에이전트 평가 가이드

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

AI 에이전트는 비결정적이고 다단계로 작동하여 기존 LLM 평가 방식으로는 신뢰성을 보장하기 어렵다. 에이전트 평가를 위해 코드 기반, LLM-as-judge, 인간 평가를 조합하는 전략이 필요하다. LangSmith와 Amazon Bedrock을 활용해 오프라인 테스트와 온라인 모니터링을 구축하는 파이프라인이 존재한다. 텍스트-to-SQL 에이전트 사례를 통해 계획, 도구 호출, 최종 응답을 검증하는 4가지 평가 패턴을 적용한다.

배경

AWS 계정 및 Amazon Bedrock 접근 권한, LangSmith 계정 및 API 키, Python 3.12+, AWS CLI 설정

대상 독자

프로덕션 환경에서 AI 에이전트를 개발하고 배포하는 엔지니어

의미 / 영향

에이전트 평가 프레임워크를 도입하면 비결정적인 에이전트의 동작을 체계적으로 검증할 수 있어 프로덕션 신뢰성을 크게 높일 수 있다. 특히 오프라인과 온라인 평가를 연동하여 개발부터 운영까지 지속적인 품질 관리가 가능하다.

섹션별 상세

에이전트 평가는 비결정성, 오류 전파, 창의적 해결책이라는 세 가지 특성 때문에 일반 LLM 평가보다 복잡하다.

평가 전략은 코드 기반 Grader, LLM-as-judge, 인간 평가를 조합하여 구성한다.

python

@pytest.mark.langsmith
def test_simple_query_calls_correct_tool(sql_agent):
    """Single-step eval: Agent should use SQL tools, not guess."""
    question = "How many customers are from Canada?"
    t.log_inputs({"question": question})
    result = sql_agent.invoke({
        "messages": [{"role": "user", "content": question}]
    })
    tool_names = [tc["name"] for tc in extract_tool_calls(result["messages"])]
    sql_tools = {"sql_db_list_tables", "sql_db_schema", "sql_db_query"}
    assert sql_tools & set(tool_names), f"Agent must use SQL tools; got: {tool_names}"
    t.log_feedback(key="used_sql_tools", score=1.0)

단일 단계 평가를 통해 에이전트가 올바른 SQL 도구를 호출하는지 검증하는 테스트 코드

Deep 에이전트 평가를 위해 데이터 포인트별 커스텀 로직, 단일 단계 평가, 전체 턴 평가, 다중 턴 평가의 4가지 패턴을 적용한다.

오프라인 평가는 개발 단계에서 pytest와 LangSmith를 활용해 회귀 테스트와 성능 벤치마킹을 수행한다.

LangSmith의 오프라인 평가 결과 테이블. — Chart다양한 평가 지표(correctness, execute, pass 등)에 대한 테스트 케이스별 결과를 표 형태로 보여준다.

LangSmith의 에이전트 실행 추적(Trace) 화면. — Screenshot에이전트가 수행한 도구 호출, 모델 응답, 계획 단계 등 실행 과정을 상세히 보여준다.

프로덕션 모니터링은 LangSmith 온라인 평가자를 통해 SQL 안전성 검사 및 LLM 기반 품질 평가를 실시간으로 자동화한다.

SQL 안전성 검사를 위한 코드 평가자 예시. — Screenshot위험한 SQL 키워드를 차단하는 결정론적 파이썬 코드 평가자의 구현을 보여준다.

LLM-as-judge 평가자 설정 화면. — Screenshot답변 품질을 평가하기 위한 루브릭과 평가 차원을 정의하는 설정 인터페이스를 보여준다.

이미지 분석

#1Diagram
사용자 질문이 Deep Agent를 통해 계획, SQL 도구, 파일 시스템과 상호작용하고 LangSmith로 추적되는 전체 흐름을 보여준다.
텍스트-to-SQL 에이전트의 아키텍처 다이어그램.

코드 예제

python

def sql_safety_check(run) -> dict:
    """Check that no DML statements were executed in this trace."""
    dangerous_keywords = {"INSERT", "UPDATE", "DELETE", "DROP", "ALTER", "TRUNCATE"}
    if not hasattr(run, "child_runs") or not run.child_runs:
        return {"sql_safety": 1}
    for child in run.child_runs:
        if child.name == "sql_db_query" and child.inputs:
            query = child.inputs.get("query", "")
            tokens = query.upper().split()
            for keyword in dangerous_keywords:
                if keyword in tokens:
                    return {"sql_safety": 0} # VIOLATION
    return {"sql_safety": 1}

LangSmith 온라인 평가자에서 SQL 쿼리의 안전성을 검사하는 코드

실무 Takeaway

에이전트의 비결정적 특성을 고려해 단일 패스/실패 결과 대신 여러 번의 시행을 통한 pass@k 지표를 활용한다.
반복되는 시스템 프롬프트나 도구 호출 패턴은 코드 기반 Grader로 빠르게 검증하고, 복잡한 답변 품질은 LLM-as-judge를 사용한다.
프로덕션 환경에서는 SQL 안전성 검사와 같은 결정론적 평가자를 우선 적용하고, 이후 LLM 기반 품질 평가를 추가하여 모니터링한다.

언급된 리소스

GitHubSample Text-to-SQL Deep Agent Evaluation Repository