선호도 데이터셋
동일한 질문에 대해 모델이 생성한 두 가지 이상의 답변 중 어떤 것이 더 우수한지를 기록한 데이터이다. DPO나 RLHF 학습에서 모델의 가치 판단 기준을 정립하는 데 사용된다.
RTX 4090으로 도전하는 DPO: 에이전트 추론 경로로 데이터셋 만들기