reward-decomposition
보상 분해
강화학습에서 하나의 숫자로 주어지는 전체 보상을 에너지, 지연 시간, 대역폭 등 여러 하위 성능 지표 벡터로 나누는 기법이다. 이를 통해 모델이 특정 행동을 선택했을 때 어떤 지표가 결정에 결정적인 영향을 미쳤는지 수학적으로 분석할 수 있어 의사결정의 투명성을 높인다.
보상 분해
강화학습에서 하나의 숫자로 주어지는 전체 보상을 에너지, 지연 시간, 대역폭 등 여러 하위 성능 지표 벡터로 나누는 기법이다. 이를 통해 모델이 특정 행동을 선택했을 때 어떤 지표가 결정에 결정적인 영향을 미쳤는지 수학적으로 분석할 수 있어 의사결정의 투명성을 높인다.