본문으로 건너뛰기
AI Trends
피드
트렌딩
커뮤니티
공지
로그인
피드
트렌딩
커뮤니티
공지
그룹 기반 강화학습 (group-based-rl) 용어 설명 | AI Trends
group-based-rl
그룹 기반 강화학습
중급
여러 개의 답변 후보군을 생성하고 그 안에서 상대적인 품질을 비교하여 모델을 학습시키는 강화학습 기법으로, 보상의 안정성을 높이는 데 효과적이다.
비슷한 개념
rlaif
rlhf
rft
grpo
reward-modeling
m-grpo
reinforcement-pre-training
mbrl
← 용어 사전 전체 보기