에이전트 기반 평가
AI 에이전트가 직접 소프트웨어를 실행하고 조작하며 성능을 측정하는 방식으로, 정답지가 없는 복잡한 상호작용 시스템의 품질을 객관적으로 평가하는 데 필수적인 기법입니다.