멀티턴 평가
단일 질문과 답변 쌍이 아니라 사용자와 AI 사이에 오가는 여러 번의 대화 전체 맥락을 분석하여, 대화의 일관성, 목표 달성 여부, 사용자 만족도를 종합적으로 평가하는 기법이다.
"AI와 사랑에 빠지지 마세요" OpenAI가 정서적 의존을 경계하는 이유
에이전트 평가 속도 8.7배 향상: Monday.com의 실전 AI 평가 전략
AI 에이전트 성능 평가, 8.7배 빨라지는 비결은? Monday.com의 노하우 공개