본문으로 건너뛰기

difficulty-bias

난이도 편향

중급

정규화 연산이 극단적 난이도(매우 쉬움·매우 어려움)에 상대적으로 더 큰 기울기 가중치를 부여하는 현상으로, GRPO의 1/√(p(1-p)) 가중치가 그 원인이다.