본문으로 건너뛰기

rlvr

강화학습 기반 검증

고급

모델의 출력을 외부 검증기나 보상 모델을 통해 학습시키는 강화학습 기법이다. DeepSeek-R1 등 최신 모델에서 추론 능력을 극대화하기 위해 사용되는 핵심 방법론이다.