통계적 가설 검정
두 모델 간의 성능 차이가 단순한 우연인지 아니면 통계적으로 유의미한 개선인지를 수학적으로 판별하는 방법이다. 벤치마크 결과의 신뢰성을 확보하는 데 중요한 역할을 한다.