내재적 피드백
환경의 외부 보상과 별개로 에이전트 내부에서 생성되는 신호입니다. 탐색의 가치를 평가하거나 학습의 방향성을 제시하여 희소한 보상 환경에서도 효과적인 학습을 가능하게 합니다.