강화 사전 학습
모델이 정답을 맞히는 과정 자체를 강화 학습의 보상 신호로 삼아 사전 학습 단계부터 적용하는 기법이다. 단순한 다음 단어 예측을 넘어 모델이 더 나은 추론 경로를 찾도록 유도한다.