엔트로피 정규화
강화학습에서 에이전트가 특정 행동에만 매몰되지 않고 다양한 행동을 탐색하도록 정책의 무작위성(엔트로피)을 유지하는 기법이다.
DSDR: 이중 척도 다양성 정규화로 LLM 추론의 pass@k 성능 대폭 향상