가치 순서 상관관계
예측된 보상 값이 실제 작업의 시간적 순서와 얼마나 일치하는지 측정하는 지표입니다. 1에 가까울수록 작업 진행도를 정확히 반영함을 의미합니다.
VLM의 토큰 확률로 로봇 학습의 희소 보상 문제를 해결하다