정책 노후화
비동기 학습 환경에서 모델 업데이트 속도와 데이터 수집 속도의 차이로 인해, 현재 모델과 데이터를 생성한 모델 사이에 격차가 발생하는 현상을 의미합니다.
64배의 정책 지연도 견디는 안정적인 비동기 LLM 강화학습, VESPO