조건부 가치 위험
최악의 시나리오에서의 평균 손실을 측정하는 지표로 하위 n% 보상의 평균을 계산한다. 강화학습 에이전트가 극단적인 상황에서 얼마나 안정적으로 동작하는지 평가하는 데 중요하다.