본문으로 건너뛰기
AI Trends
피드
트렌딩
커뮤니티
공지
로그인
피드
트렌딩
커뮤니티
공지
보상 모델 학습 (reward-model-training) 용어 설명 | AI Trends
reward-model-training
보상 모델 학습
중급
강화학습에서 사용할 고품질 보상 벡터를 생성하기 위한 학습으로, 전문가 평가 분포를 파라미터에 주입해 RL 신호를 향상시킨다.
비슷한 개념
reward-modeling
imitation-learning
distributional-rl
surrogate-reward-learning
reinforcement-learning-with-verifiable-rewards
reward-function
reward-shaping
reinforcement-pre-training
← 용어 사전 전체 보기