직접 정렬 선호도 최적화
모델의 출력을 인간이나 특정 기준의 선호도에 맞게 직접 정렬하는 강화학습 기법으로, 복잡한 보상 모델 설계 없이도 효율적인 학습이 가능하게 합니다.
보상 희소성 해결! 인간의 풀이를 힌트 삼아 수학 난제를 정복하는 ReGFT