본문으로 건너뛰기
Qwen2.5-0.5B-Instruct 모델의 GSM8K 추론 튜닝 중 발생한 리워드 해킹 사례 | AI Trends