보상 분산
동일한 입력에 대해 서로 다른 추론 경로를 거쳤을 때 발생하는 보상값들의 차이를 나타낸다. 보상 분산이 높을수록 어떤 추론이 더 나은지에 대한 명확한 학습 신호를 제공하므로 효과적인 가중치 업데이트가 가능해진다.