검증 가능한 보상 기반 강화학습
예측 결과가 실제 현실에서 발생한 사건과 일치하는지 여부를 객관적인 보상 신호로 사용하여 모델을 최적화하는 학습 방식이다. 폐쇄된 환경이 아닌 현실 세계의 인과관계를 모델에 학습시키는 데 핵심적인 역할을 한다.