discount-factor
미래에 받을 보상을 현재 가치로 환산할 때 사용하는 0과 1 사이의 값(γ)이다. 미래 보상의 불확실성을 반영하며, 벨만 연산자가 수축 사상이 되도록 만드는 핵심적인 역할을 한다.
할인 계수 하나로 바뀌는 AI의 전략: 단기 손실 vs 장기 이득
강화학습의 핵심 증명: 왜 그리디 정책이 항상 최적인가?