모델 붕괴 단계
비지도 학습 과정에서 모델의 보상 정확도가 1% 미만으로 떨어지는 시점을 의미한다. 이 지표는 모델이 실제 정답 기반 강화학습에서 얼마나 성능이 향상될 수 있을지를 예측하는 척도로 사용된다.