직접 선호도 최적화(direct-preference-optimization)이란 무엇인가요?

Question

Accepted Answer

별도의 보상 모델 학습 없이 선호도 데이터를 직접 사용하여 모델을 최적화하는 알고리즘이다. 복잡한 강화학습 과정 없이도 모델의 출력을 인간의 의도나 선호에 맞게 정렬할 수 있어 텍스트 및 멀티모달 정렬에 효과적이다.

direct-preference-optimization