Strands Evals에서 실제 사용자를 시뮬레이션하여 다회차 AI 에이전트 평가하기

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

AI 에이전트의 실무 성능을 검증하기 위해서는 단발성 질의응답을 넘어 실제 사용자와의 복잡한 다회차 대화 맥락을 반영한 평가가 필수적이다. Strands Evaluation SDK의 ActorSimulator는 LLM을 기반으로 일관된 페르소나와 명확한 목표를 가진 가상 사용자를 생성하여 에이전트와 자연스럽게 상호작용하게 한다. 이 시스템은 에이전트의 답변에 따라 질문을 수정하거나 추가 정보를 요청하는 적응형 행동을 재현하며, 목표 달성 여부를 스스로 판단해 대화를 종료한다. 내부 테스트를 통해 정적 데이터셋으로는 포착하기 어려운 에이전트의 논리적 일관성과 문제 해결 능력을 정량적으로 측정할 수 있음이 확인됐다. 결과적으로 개발자는 프로덕션 배포 전 다양한 사용자 시나리오에 대한 에이전트의 대응력을 체계적으로 분석하고 개선할 수 있다.

배경

Python 프로그래밍 지식, LLM 에이전트 및 프롬프트 엔지니어링 기본 개념, OpenTelemetry 기반의 관측성(Observability) 이해

대상 독자

프로덕션 환경에서 다회차 대화형 AI 에이전트를 개발하고 성능을 검증하려는 ML 엔지니어

의미 / 영향

이 기술은 수동 테스트의 한계를 극복하고 수백 개의 대화 시나리오를 자동화하여 에이전트의 신뢰성을 높인다. 특히 페르소나별 맞춤형 테스트를 통해 특정 사용자 그룹에서 발생하는 성능 저하를 사전에 파악하고 수정할 수 있게 한다.

섹션별 상세

기존의 단발성 평가 방식은 사용자의 피드백이나 목표 변경과 같은 동적인 대화 흐름을 검증하는 데 한계가 있다. ActorSimulator는 고정된 입출력 쌍 대신 LLM 기반의 가상 사용자를 투입해 에이전트와 실시간으로 대화하며 이 간극을 메운다.

단발성 평가와 다회차 평가의 프로세스 비교 다이어그램 — Diagram정적인 입력 기반의 단발성 평가와 달리, 다회차 평가는 가상 사용자와 에이전트 간의 동적인 대화 루프를 통해 전체 트랜스크립트를 생성하고 이를 기반으로 점수를 산출함을 보여준다. 정적 입력이 적응형 사용자 행동을 포착하지 못하는 '간극(The Gap)'을 강조한다.

가상 사용자는 일관된 페르소나와 명확한 목표를 유지하며 에이전트의 반응에 따라 유연하게 대화를 이어간다. 에이전트가 불충분한 답변을 제공하면 추가 질문을 던지고, 대화가 산으로 가면 원래 목표로 유도하는 등 실제 사용자다운 행동을 재현한다.

ActorSimulator는 대화의 각 단계에서 가상 사용자의 내부 추론 과정을 구조화된 데이터로 제공한다. 개발자는 이를 통해 에이전트가 왜 특정 지점에서 실패했는지, 혹은 어떤 페르소나에게 취약한지를 상세히 분석할 수 있다.

python

from strands import Agent
from strands_evals import ActorSimulator, Case, Experiment

# Define your test case
case = Case(
    input="I want to plan a trip to Tokyo with hotel and activities",
    metadata={"task_description": "Complete travel package arranged"}
)

# Create user simulator from test case
user_sim = ActorSimulator.from_case_for_user_simulator(
    case=case,
    max_turns=5
)

# Run the multi-turn conversation
user_message = case.input
conversation_history = []
while user_sim.has_next():
    agent_response = agent(user_message)
    agent_message = str(agent_response)
    // ...(중략)
    user_result = user_sim.act(agent_message)
    user_message = str(user_result.structured_output.message)

ActorSimulator를 사용하여 가상 사용자와 에이전트 간의 다회차 대화 루프를 구현하는 기본 예시

ActorSimulator 대화 루프의 상세 단계 — Diagram설정(Setup), 대화 루프(Conversation Loop), 출력(Output)의 3단계 과정을 설명한다. 테스트 케이스에서 페르소나를 생성하고, 가상 사용자와 에이전트가 메시지를 주고받으며 목표 달성 여부를 확인한 뒤 최종 리포트를 생성하는 흐름을 시각화했다.

OpenTelemetry와 통합되어 대화 전체의 트레이스 데이터를 수집하고 이를 세션 단위로 매핑하여 평가 파이프라인에 전달한다. HelpfulnessEvaluator나 GoalSuccessRateEvaluator를 통해 대화 전체의 성공률과 유용성을 수치화된 리포트로 확인할 수 있다.

테스트 케이스부터 평가 리포트까지의 엔드투엔드 파이프라인 — Infographic테스트 케이스 정의, 프로필 생성, 대화 시뮬레이션, 세션 매핑, 평가, 리포트 작성으로 이어지는 6단계 파이프라인을 보여준다. 하단에 OpenTelemetry 트레이스가 모든 대화 턴에서 캡처되어 관측성을 제공함을 명시한다.

실무 Takeaway

복잡한 워크플로우를 가진 에이전트 평가 시 max_turns를 8-10회로 설정하여 충분한 대화 깊이를 확보해야 한다.
단순한 작업 설명 대신 '날짜, 목적지, 가격이 포함된 예약 확정'과 같이 구체적인 목표를 설정해야 시뮬레이터의 목표 달성 판단 정확도가 높아진다.
인내심이 낮거나 전문 지식이 풍부한 특정 페르소나를 설정하여 에이전트가 다양한 사용자 층에 적절히 대응하는지 엣지 케이스 테스트를 수행해야 한다.

언급된 리소스

문서Strands Evaluation SDK Installation

GitHubStrands Agents Samples Repository

GitHubAgentCore Evaluations Sample