총 후회
알고리즘이 선택한 전략과 사후적으로 판명된 최적 전략 간의 누적 성능 차이다. 온라인 학습 및 반복 게임에서 알고리즘이 얼마나 효율적으로 최적해를 찾아가는지 측정하는 핵심 지표다.