토큰 로짓
모델이 다음 토큰을 예측하기 전 계산하는 정규화되지 않은 확률 값입니다. TOPReward는 이를 활용해 텍스트 출력 대신 내부 확률 분포에서 직접 정보를 추출합니다.
VLM의 토큰 확률로 로봇 학습의 희소 보상 문제를 해결하다