조건부 가치 위험
최악의 시나리오에서의 평균 손실을 측정하는 지표로 하위 n% 보상의 평균을 계산한다. 강화학습 에이전트가 극단적인 상황에서 얼마나 안정적으로 동작하는지 평가하는 데 중요하다.
평균 보상은 비슷해도 안정성은 23배? 강화학습 조건화의 비밀