본문으로 건너뛰기

피드 트렌딩 커뮤니티 공지사항 기술 태그 AI 용어 사전 서비스 소개 문의 운영 정책 개인정보 처리방침

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI Trends·후원

피드 트렌딩 커뮤니티 공지

피드 트렌딩 커뮤니티 공지

직접 선호도 최적화 (dpo) 용어 설명 | AI Trends

dpo

직접 선호도 최적화

고급

두 가지 답변 중 사람이 선호하는 것을 선택한 데이터를 사용하여 모델을 인간의 가치관에 정렬시키는 기법이다. 별도의 보상 모델 없이도 효율적으로 모델의 품질을 높일 수 있다.

비슷한 개념

direct-preference-optimization dapo preference-optimization simpo preference-pairs preference-dataset preference-learning rlhf

← 용어 사전 전체 보기