온폴리시 증류
모델이 현재 자신의 정책으로 생성한 데이터를 사용하여 학습을 진행하는 방식이다. 훈련 데이터와 실제 추론 데이터의 분포를 일치시켜 성능을 안정화하고 파괴적 망각을 방지하는 데 중요하다.