본문으로 건너뛰기

off-policy-learning

오프폴리시 학습

중급

과거의 정책이나 다른 에이전트가 생성한 데이터를 활용하여 학습하는 방식입니다. 이미 수집된 데이터를 재사용할 수 있어 효율적이며, 과거의 성공적인 탐색 경로를 다시 학습에 반영하여 성능을 높이는 데 유리합니다.