오프-폴리시
현재 학습 중인 정책이 아닌, 과거의 정책이나 다른 시스템(추론 엔진 등)에서 생성된 데이터를 사용하여 학습하는 방식이다. 데이터 효율은 높지만, 데이터 생성 시점과 학습 시점의 모델 차이로 인해 훈련 안정성이 떨어질 수 있는 위험이 있다.