본문으로 건너뛰기
샘플 라우팅을 통한 그룹 상대적 정책 최적화와 자기 증류 정책 최적화의 통합 | AI Trends