보상 희소성
강화학습에서 모델이 수행한 행동에 대해 긍정적인 보상을 받는 경우가 매우 드문 상태를 의미하며, 특히 정답 경로가 복잡한 수학 문제에서 학습을 저해하는 주요 요인입니다.