보상 형성
에이전트가 최종 목표에 도달하기 전이라도 올바른 방향으로 행동할 때마다 중간 보상을 주는 기법이다. 보상이 희소한(Sparse) 환경에서 학습 속도를 높이고 에이전트가 복잡한 행동 패턴을 더 빨리 익히도록 유도한다.