오프폴리시 강화학습
현재 학습 중인 정책이 아닌 다른 정책으로 수집된 데이터를 사용하여 학습하는 방식이다. 데이터 효율성이 높고 학습 과정이 안정적인 특징이 있다.
OpenAI 1,100억 달러 펀딩 달성과 Sakana AI의 혁신적 LoRA 생성 기술