후회 최소화
알고리즘이 선택한 전략의 결과와 사후적으로 판명된 최적 전략의 결과 차이를 최소화하는 목표이다. 강화학습이나 온라인 학습에서 알고리즘의 성능을 평가하는 핵심 지표로 활용된다.