보상 분해(reward-decomposition)이란 무엇인가요?

Question

Accepted Answer

강화학습에서 하나의 숫자로 주어지는 전체 보상을 에너지, 지연 시간, 대역폭 등 여러 하위 성능 지표 벡터로 나누는 기법이다. 이를 통해 모델이 특정 행동을 선택했을 때 어떤 지표가 결정에 결정적인 영향을 미쳤는지 수학적으로 분석할 수 있어 의사결정의 투명성을 높인다.

reward-decomposition

비슷한 개념