보상 밀도 원칙
제한된 라벨링 데이터에서 희소 시퀀스-레벨 보상은 탐색이 productive한 교사 모델의 목표 정책을 형성하는 데 유용하고, 이후의 학습 신호 밀도는 deployment 모델로의 압축을 돕도록 밀집 토큰-단위 감독으로 전이되어야 한다는 원칙.