N개 중 최상위 랭킹
모델이 생성한 여러 개의 답변 후보 중 별도의 보상 모델이나 검증기를 통해 가장 우수한 답변 하나를 선택하는 방식이다. 답변의 질을 정교하게 제어할 수 있다.
학습 없이 모델 성능을 높이는 마법, 추론 시점 스케일링의 모든 것