어드밴티지 함수
특정 행동이 해당 상태에서의 평균적인 행동 가치보다 얼마나 더 나은지를 나타내는 함수이다. Actor-Critic 모델에서 학습의 분산을 줄이고 안정성을 높이는 데 기여한다.