본문으로 건너뛰기

on-policy

온-폴리시

고급

강화학습에서 현재 학습 중인 모델이 직접 생성한 데이터를 바탕으로 업데이트를 수행하는 방식이다. 타사 모델의 데이터를 사용하는 오프-폴리시(Off-policy)와 대비된다.