본문으로 건너뛰기

preference-dataset

선호도 데이터셋

중급

동일한 질문에 대해 모델이 생성한 두 가지 이상의 답변 중 어떤 것이 더 우수한지를 기록한 데이터이다. DPO나 RLHF 학습에서 모델의 가치 판단 기준을 정립하는 데 사용된다.