온폴리시 단계 간 증류
강화학습의 각 단계에서 이전 단계의 모델을 교사 모델로 활용하여 현재 학습 중인 모델에 지식을 전달하는 기법이다. 새로운 능력을 학습할 때 기존에 습득한 지식을 잃어버리는 치명적 망각 현상을 방지하는 데 중요한 역할을 한다.