본문으로 건너뛰기
RubricEM: 검증 가능한 보상을 넘어서는 루브릭 기반 정책 분해를 통한 메타-RL | AI Trends