Best-of-N 스코어링
모델이 생성한 N개의 결과물 중 LLM 심사위원을 통해 가장 우수한 결과물을 선택하는 기법이다. 추가적인 모델 학습 없이도 추론 시점에 결과의 품질을 유의미하게 향상시킬 수 있는 방법론이다.