분포 외 상태
모델이 훈련 과정에서 보지 못했던 새로운 데이터 분포의 상태를 의미한다. 모방 학습 에이전트가 실수를 하여 시연 경로를 벗어나면 이 상태에 진입하게 되며 적절한 행동 지침이 없으면 비정상적인 동작을 반복하게 된다.