본문으로 건너뛰기
AI Trends
피드
트렌딩
커뮤니티
공지
로그인
피드
트렌딩
커뮤니티
공지
하위 문제 수준 정규화 (subproblem-level normalization) 용어 설명 | AI Trends
subproblem-level normalization
하위 문제 수준 정규화
중급
각 하위 문제 위치에서 보상을 독립적으로 정규화하고 이를 토큰 단위 크레딧에 매핑하는 학습 신호 조정 기법이다.
비슷한 개념
group-normalization
ctan
per-problem-calibration
hrl
hierarchical-reinforcement-learning
dense decomposed rewards
situational-reward
reward-shaping
← 용어 사전 전체 보기