보상 모델
강화학습(RLHF) 과정에서 모델의 답변이 인간의 선호도나 특정 기준에 얼마나 부합하는지 점수를 매기는 모델이다. 주 모델이 더 나은 답변을 생성하도록 유도하는 가이드 역할을 수행하며, 증류 공격의 주요 타겟 중 하나이다.