단순 선호도 최적화
복잡한 보상 모델 없이도 모델이 더 나은 답변을 선택하도록 학습시키는 기법이다. 기존의 DPO보다 계산 효율성이 높으며 모델의 정렬 성능을 개선하고 특정 스타일을 학습시키는 데 효과적이다.