본문으로 건너뛰기

dense-reward

조밀한 보상

중급

최종 결과뿐만 아니라 학습 과정의 중간 단계마다 세분화된 점수를 부여하여 모델이 올바른 방향으로 학습되도록 유도하는 보상 방식이다.