본문으로 건너뛰기
AI Trends
피드
트렌딩
커뮤니티
공지
로그인
피드
트렌딩
커뮤니티
공지
직접 정렬 선호도 최적화 (dapo) 용어 설명 | AI Trends
dapo
직접 정렬 선호도 최적화
고급
모델의 출력을 인간이나 특정 기준의 선호도에 맞게 직접 정렬하는 강화학습 기법으로, 복잡한 보상 모델 설계 없이도 효율적인 학습이 가능하게 합니다.
비슷한 개념
direct-preference-optimization
dpo
preference-optimization
simpo
preference-alignment
orpo
rlhf
learning-to-rank
← 용어 사전 전체 보기