기록 학습
검증에 성공한 이전의 상호작용 데이터(기록)를 학습 데이터로 사용하여 모델이 올바른 증명 과정을 모방하도록 만드는 기법이다. 모델이 정답을 생성하는 능력뿐만 아니라 그 정답을 논리적으로 뒷받침하는 증명 과정을 학습하는 데 사용된다.