본문으로 건너뛰기
HolderPO: Hölder mean 기반 토큰-수준 확률 가중치를 이용한 일반화된 정책 최적화 프레임워크 | AI Trends