혼합 선호도 최적화
Mixed Preference Optimization의 약자로, SFT와 DPO 등 여러 손실 함수를 결합하여 학습하는 기법이다. 데이터셋의 특성에 따라 가중치를 조절하여 모델 성능을 최적화한다.