본문으로 건너뛰기
그라디언트 없이 스칼라 보상만으로 신경망 학습시키기: 18번의 실패 끝에 얻은 성공 | AI Trends