본문으로 건너뛰기

reinforcement-learning-with-verifiable-rewards

검증 가능한 보상 기반 강화학습

고급

예측 결과가 실제 현실에서 발생한 사건과 일치하는지 여부를 객관적인 보상 신호로 사용하여 모델을 최적화하는 학습 방식이다. 폐쇄된 환경이 아닌 현실 세계의 인과관계를 모델에 학습시키는 데 핵심적인 역할을 한다.