API 검증 기반 평가
에이전트의 작업 성공 여부를 단순 텍스트 응답이 아닌, 실제 API 호출을 통한 시스템 상태 변화로 확인하는 방식이다. 평가의 객관성과 기술적 신뢰도를 높이는 핵심 방법론이다.