오프-폴리시 스캐폴딩
현재 학습 중인 정책이 아닌 외부의 데이터나 수정된 가이드를 학습 과정에 주입하여 탐색을 돕는 기법입니다. 건축의 비계처럼 학습 초기 단계에서 올바른 방향으로 이끄는 지지대 역할을 하며, 특히 보상이 드문 환경에서 학습의 안정성을 높입니다.