평가 시스템
AI 모델의 성능을 벤치마크 점수가 아닌 실제 비즈니스 시나리오에서 측정하는 프레임워크이다. 지연 시간, 도구 호출 성공률, 작업 완료율 등 기술적 지표와 비즈니스 가치를 결합하여 에이전트의 실효성을 지속적으로 검증한다.