거부 샘플링
모델이 생성한 여러 후보 답변들 중에서 별도의 검증기나 보상 모델을 통해 기준에 미달하는 답변은 버리고, 가장 높은 점수를 받은 답변만 채택하는 방식이다. 고품질의 데이터만 선별하여 출력의 신뢰성을 높인다.
자꾸 술만 마시는 AI NPC? 반복되는 대사 패턴 해결하는 3가지 기술
학습 없이 모델 성능을 높인다? 추론 시점 스케일링의 모든 것
학습 없이 모델 성능을 높이는 마법, 추론 시점 스케일링의 모든 것
LLM 속도 6배 빨라지는데 품질은 그대로? NVIDIA의 TiDAR 논문 분석