dense-reward
최종 결과뿐만 아니라 학습 과정의 중간 단계마다 세분화된 점수를 부여하여 모델이 올바른 방향으로 학습되도록 유도하는 보상 방식이다.
GRPO로 72%까지 올렸는데... 소형 모델 코드 예측의 한계 돌파하기