검증 가능한 보상
에이전트의 행동 결과가 정답인지 여부를 LLM의 주관적 판단이 아닌, 데이터베이스 상태나 코드 실행 결과를 통해 객관적으로 확인하는 신호이다. 학습 과정의 신뢰도를 높이고 모호한 평가로 인한 성능 저하를 방지하는 역할을 한다.