상한 신뢰 한계 점수(ucb-score)이란 무엇인가요?

Question

Accepted Answer

현재까지의 평균 성능에 탐색되지 않은 불확실성 보너스를 더해 계산하는 점수이다. [평균 점수 + 상수 * sqrt(log(전체 시도)/현재 후보 시도)] 연산을 통해 계산되며, 성능이 좋거나 아직 충분히 검증되지 않은 후보를 우선 선택하게 하여 탐색과 활용의 균형을 맞춘다.

ucb-score

비슷한 개념