비정상 상태 환경
시간에 따라 보상 구조나 환경의 물리 법칙이 변하는 환경을 의미한다. 에이전트가 고정된 전략에 머물지 않고 변화하는 목표에 지속적으로 적응해야 하는 난이도 높은 설정이다.
평균 보상은 비슷해도 안정성은 23배? 강화학습 조건화의 비밀