본문으로 건너뛰기
그라디언트 없이 단일 스칼라 보상만으로 신경망 학습시키기 | AI Trends