선호도 데이터셋(preference-dataset)이란 무엇인가요?

Question

Accepted Answer

동일한 질문에 대해 모델이 생성한 두 가지 이상의 답변 중 어떤 것이 더 우수한지를 기록한 데이터이다. DPO나 RLHF 학습에서 모델의 가치 판단 기준을 정립하는 데 사용된다.

preference-dataset