본문으로 건너뛰기

dapo

직접 정렬 선호도 최적화

고급

모델의 출력을 인간이나 특정 기준의 선호도에 맞게 직접 정렬하는 강화학습 기법으로, 복잡한 보상 모델 설계 없이도 효율적인 학습이 가능하게 합니다.