직접 선호도 최적화
두 가지 답변 중 사람이 선호하는 것을 선택한 데이터를 사용하여 모델을 인간의 가치관에 정렬시키는 기법이다. 별도의 보상 모델 없이도 효율적으로 모델의 품질을 높일 수 있다.