구조적 반사사 롤아웃
결정(token)과 콘텐츠(content) 학습 신호를 분리하기 위해, abstain/ generate로 구성된 구조적 롤아웃 그룹을 구성하고 GRPO의 어드밴티지 분해에 활용한다.