VLM-유도 보상
편집의 질뿐 아니라 하위 추론의 정당성까지 포착하기 위한 두 가지 보상(Editing Correctness, Editing Guidance)을 기반으로 정책을 최적화하는 학습 신호이다.