소프트 마진 랭킹 손실
서로 다른 데이터 쌍 사이의 상대적인 순서를 학습시키기 위한 손실 함수이다. Gold 반응의 점수가 Silver보다 높고, Silver가 Negative보다 높도록 강제하여 모델이 더 적절한 반응을 우선적으로 생성하게 유도한다.