본문으로 건너뛰기
dapo
직접 정렬 선호도 최적화
고급
모델의 출력을 인간이나 특정 기준의 선호도에 맞게 직접 정렬하는 강화학습 기법으로, 복잡한 보상 모델 설계 없이도 효율적인 학습이 가능하게 합니다.
비슷한 개념
direct-preference-optimization
dpo
preference-optimization
simpo
preference-alignment
orpo
rlhf
learning-to-rank
← 용어 사전 전체 보기
AI Trends
피드
트렌딩
커뮤니티
공지
로그인
피드
트렌딩
커뮤니티
공지