오프라인 평가
정답이 알려진 테스트 데이터셋을 사용하여 에이전트의 정확도와 효과성을 정량적으로 측정하는 과정이다. 실제 운영 환경 배포 전 시스템 성능을 엄격하게 검증하여 잠재적 오류를 예방하는 핵심적인 품질 보증 단계이다.