본문으로 건너뛰기
Rubric 기반 강화학습에서의 보상 해킹 | AI Trends