agent-testing
AI 에이전트가 특정 작업이나 대화에서 의도한 대로 정확하게 동작하는지 검증하는 과정이다. 모델의 출력값뿐만 아니라 도구 사용 능력과 논리적 추론 과정을 포함하여 평가한다.