통계적 A/B 테스트
단순 평균 비교를 넘어 Mann-Whitney U 검정이나 부트스트랩 신뢰 구간 등을 활용해 프롬프트 변경의 유의성을 검증하는 방법이다. 우연에 의한 성능 변화와 실제 개선을 구분하여 프롬프트 엔지니어링의 객관적 근거를 제공한다.