오프-폴리시 학습
현재 학습 중인 정책과 실제로 데이터를 수집한 정책이 다를 때 사용하는 강화학습 기법으로, 과거의 데이터나 다른 환경에서 생성된 데이터를 재사용할 수 있게 해줍니다.