본문으로 건너뛰기

피드 트렌딩 커뮤니티 공지사항 기술 태그 AI 용어 사전 서비스 소개 문의 운영 정책 개인정보 처리방침

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI Trends·후원

피드 트렌딩 커뮤니티 공지

피드 트렌딩 커뮤니티 공지

인간 피드백 기반 강화학습 (rlhf) 용어 설명 | AI Trends

rlhf

인간 피드백 기반 강화학습

중급

인간의 선호도를 반영하여 AI 모델을 미세 조정하는 기법이다. 모델의 답변이 인간의 윤리나 의도에 부합하도록 유도하지만 외부적 제약에 가깝다는 비판도 존재한다.

비슷한 개념

reinforcement-fine-tuning rlaif reward-modeling preference-optimization rft dpo dapo group-based-rl

← 용어 사전 전체 보기