보상 모델
강화학습(RLHF) 과정에서 모델의 답변이 인간의 선호도나 특정 기준에 얼마나 부합하는지 점수를 매기는 모델이다. 주 모델이 더 나은 답변을 생성하도록 유도하는 가이드 역할을 수행하며, 증류 공격의 주요 타겟 중 하나이다.
모델 생성 루브릭의 한계: RubricBench로 밝혀낸 인간과의 성능 격차
8만 개 데이터로 학습한 SpatialScore, 상용 모델 능가하는 공간 지능
1,600만 건의 무단 추출, 앤스로픽이 폭로한 중국 AI 기업들의 모델 복제 수법