학습 붕괴
모델 학습 과정에서 손실 함수가 발산하거나 성능이 갑자기 급락하여 더 이상 유의미한 학습이 이루어지지 않는 현상으로 ARL에서 자주 발생하는 고질적 문제다.
에이전트 강화학습의 고질적 학습 붕괴 문제, SAMPO 알고리즘으로 해결