로그 비율 재매개변수화
DPO의 핵심 수학적 기법으로, 보상 함수를 모델의 정책(Policy)과 참조 모델 간의 로그 확률 비율로 치환하는 과정이다. 이를 통해 복잡한 분할 함수(Partition Function)를 상쇄시켜 보상 모델 없이도 최적의 정책을 직접 도출할 수 있게 한다.