검증자 피드백 기반 강화학습
모델이 검증 알고리즘과 상호작용하며 얻은 피드백을 보상 신호로 사용하여 학습하는 강화학습 기법이다. 모델은 검증자를 설득할 수 있는 올바른 증명을 생성하는 방향으로 최적화된다. RLHF와 유사하지만 사람이 아닌 수학적/논리적 검증자를 대상으로 한다는 차이가 있다.
AI의 답변, 믿어도 될까? 스스로 정답임을 증명하는 '자기 증명 모델' 등장