보상 모델링
인간의 피드백을 바탕으로 모델의 답변 품질을 평가하는 기준을 학습하는 과정이다. 강화학습(RLHF)의 핵심 요소로, 우수한 모델의 보상 체계를 추출하면 모델의 가치 판단 기준을 그대로 복제할 수 있다.
1,600만 건의 데이터 탈취, Anthropic이 밝힌 중국 AI 기업들의 모델 증류 수법