오라클
데이터의 정답이나 최적의 수정 방향을 알고 있다고 가정되는 외부 시스템 또는 모델로, 학습 데이터의 품질을 높이는 기준 역할을 합니다.
단 28분의 학습으로 Qwen3-8B 수학 성능 6.2% 향상