보상 희소성
강화학습에서 모델이 수행한 행동에 대해 긍정적인 보상을 받는 경우가 매우 드문 상태를 의미하며, 특히 정답 경로가 복잡한 수학 문제에서 학습을 저해하는 주요 요인입니다.
보상 희소성 해결! 인간의 풀이를 힌트 삼아 수학 난제를 정복하는 ReGFT