후회
순차적 의사결정에서 사후에 최적의 선택을 알았을 때 얻었을 보상과 실제 선택으로 얻은 보상의 차이를 의미한다. 알고리즘이 학습 과정에서 저지른 실수의 총합을 수치화하여 성능을 평가하는 핵심 지표로 활용된다.