그룹 기반 강화학습
여러 개의 답변 후보군을 생성하고 그 안에서 상대적인 품질을 비교하여 모델을 학습시키는 강화학습 기법으로, 보상의 안정성을 높이는 데 효과적이다.
객관식을 넘어 주관식까지, 의료 AI의 추론 능력을 극대화하는 MediX-R1