상한 신뢰 구간
강화학습에서 탐색과 활용의 균형을 맞추기 위한 통계적 방법론입니다. 불확실성이 큰 행동에 가중치를 부여함으로써 새로운 전략을 시도하는 동시에 기존의 좋은 전략을 유지하도록 돕습니다.