중요도 샘플링
서로 다른 두 확률 분포 사이의 기댓값을 계산하기 위해 가중치를 부여하는 통계적 기법으로, 오프-폴리시 학습에서 데이터 수집 정책과 학습 정책 간의 차이를 보정하는 데 사용됩니다.
64배의 정책 지연도 견디는 안정적인 비동기 LLM 강화학습, VESPO