난이도 편향(difficulty-bias)이란 무엇인가요?

Question

Accepted Answer

정규화 연산이 극단적 난이도(매우 쉬움·매우 어려움)에 상대적으로 더 큰 기울기 가중치를 부여하는 현상으로, GRPO의 1/√(p(1-p)) 가중치가 그 원인이다.

difficulty-bias