본문으로 건너뛰기

피드 트렌딩 커뮤니티 공지사항 기술 태그 AI 용어 사전 서비스 소개 문의 운영 정책 개인정보 처리방침

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI Trends·후원

피드 트렌딩 커뮤니티 공지

피드 트렌딩 커뮤니티 공지

보상 모델 (reward-model) 용어 설명 | AI Trends

reward-model

보상 모델

고급

강화학습(RLHF) 과정에서 모델의 답변이 인간의 선호도나 특정 기준에 얼마나 부합하는지 점수를 매기는 모델이다. 주 모델이 더 나은 답변을 생성하도록 유도하는 가이드 역할을 수행하며, 증류 공격의 주요 타겟 중 하나이다.

비슷한 개념

reward-modeling verifiable-rewards reward-function generative-reward-model reinforcement-pre-training reward-tampering rft rlhf

← 용어 사전 전체 보기