직접 정렬 선호도 최적화(dapo)이란 무엇인가요?

Question

Accepted Answer

모델의 출력을 인간이나 특정 기준의 선호도에 맞게 직접 정렬하는 강화학습 기법으로, 복잡한 보상 모델 설계 없이도 효율적인 학습이 가능하게 합니다.

dapo