본문으로 건너뛰기

dense decomposed rewards

밀집 분해 보상

중급

목표 달성의 중간 단계에 대한 보상을 제공해 샘플의 다양성 감소에도 학습 신호를 유지하는 보상 설계.