본문으로 건너뛰기
AI Trends
피드
트렌딩
커뮤니티
공지
로그인
피드
트렌딩
커뮤니티
공지
길이 기반 보상 (length-based-reward) 용어 설명 | AI Trends
length-based-reward
길이 기반 보상
중급
정답 여부와 별개로 출력 토큰 수를 줄이려는 목표의 보상 항목으로, 모델의 추론 길이를 제어하도록 설계된다.
비슷한 개념
length-penalty
reinforcement-pre-training
brevity-penalty
verifiable-rewards
target-length
token-output
generative-reward-model
per-problem-calibration
← 용어 사전 전체 보기