concept-drift
학습 데이터의 통계적 특성이 시간이 지남에 따라 변하여 모델의 예측 성능이 저하되는 현상이다. 강화학습에서는 환경의 규칙이나 보상 구조가 변하는 상황을 의미하며, 에이전트의 적응력을 테스트하는 핵심 요소이다.
보상만으로는 부족하다? RL 에이전트의 '멘탈'을 측정하는 ARCUS-H 프레임워크