그룹 기반 강화학습(group-based-rl)이란 무엇인가요?

Question

Accepted Answer

여러 개의 답변 후보군을 생성하고 그 안에서 상대적인 품질을 비교하여 모델을 학습시키는 강화학습 기법으로, 보상의 안정성을 높이는 데 효과적이다.

group-based-rl