오즈비 선호도 최적화
별도의 참조 모델 없이 단일 단계에서 지도 학습과 선호도 학습을 동시에 수행하는 최신 정렬 기법이다. 기존 RLHF나 DPO보다 계산 효율성이 높으며 모델의 성능을 정교하게 튜닝하는 데 사용된다.