본문으로 건너뛰기
무작위로 선택된 Few-shot 지시를 통한 검증 가능한 보상으로 강화학습 성능 향상 | AI Trends