본문으로 건너뛰기

off-policy-rl

오프폴리시 강화학습

고급

현재 학습 중인 정책이 아닌 다른 정책으로 수집된 데이터를 사용하여 학습하는 방식이다. 데이터 효율성이 높고 학습 과정이 안정적인 특징이 있다.