검증 가능한 보상
모델의 답변이 정답인지 여부를 코드나 논리적 규칙을 통해 객관적으로 판별할 수 있는 보상 체계이다. 강화학습 과정에서 모델이 올바른 추론 경로를 학습하도록 유도하는 핵심 지표로 활용된다.