스킬 증류
자연어로 표현된 절차적 지식이나 실패 회피 규칙 같은 스킬을 교사적 맥락으로 사용해 정책이 특정 행동 선호를 학습하도록 만드는 방법이다. 외부 스킬 라이브러리를 사용하는 기존 방식과 달리 본 논문은 완료된 온폴리시 궤적에서 직접 에피소드 및 스텝 수준 스킬을 추출해 학습에 투입한다. 스킬 증류는 토큰 수준의 우선순위 변화를 만들어 정책의 세부 행동을 형성하는 역할을 한다.