거부 샘플링
모델이 생성한 여러 후보 답변들 중에서 별도의 검증기나 보상 모델을 통해 기준에 미달하는 답변은 버리고, 가장 높은 점수를 받은 답변만 채택하는 방식이다. 고품질의 데이터만 선별하여 출력의 신뢰성을 높인다.