오프-폴리시 학습
현재 학습 중인 정책과 실제로 데이터를 수집한 정책이 다를 때 사용하는 강화학습 기법으로, 과거의 데이터나 다른 환경에서 생성된 데이터를 재사용할 수 있게 해줍니다.
64배의 정책 지연도 견디는 안정적인 비동기 LLM 강화학습, VESPO