그룹 표준편차
한 프롬프트에 대해 모델이 동일한 입력으로 여러 번 생성한 답안의 정답표시(0/1)의 표준편차로, 정답과 오답의 내부 불일치를 측정하며 GRPO의 정규화 항과 학습 신호 크기를 동시에 결정한다.