핵심 샘플링
누적 확률이 특정 임계값 p에 도달할 때까지의 상위 토큰들만 후보로 고려하여 응답을 생성하는 기법이다. 낮은 확률의 꼬리 부분을 제거함으로써 응답의 다양성을 유지하면서도 일관성을 확보하는 데 도움을 준다.
기본값만 쓰시나요? LLM 추론 파라미터 최적화로 성능과 비용 한 번에 잡기