본문으로 건너뛰기
AI Trends
피드
트렌딩
커뮤니티
공지
로그인
피드
트렌딩
커뮤니티
공지
조밀한 보상 (dense-reward) 용어 설명 | AI Trends
dense-reward
조밀한 보상
중급
최종 결과뿐만 아니라 학습 과정의 중간 단계마다 세분화된 점수를 부여하여 모델이 올바른 방향으로 학습되도록 유도하는 보상 방식이다.
비슷한 개념
shaped-reward
reward-engineering
prm
reward-shaping
process-level-supervision
reward-function
rft
process-reward-model
← 용어 사전 전체 보기