맨-휘트니 U 검정
두 그룹 간의 차이가 통계적으로 유의미한지 확인하는 비모수적 검정 방법이다. 새로운 프롬프트가 기존보다 실제로 성능이 개선되었는지 수치적으로 검증하는 A/B 테스트에 활용된다.