정책 붕괴
학습 과정에서 모델이 최적의 보상을 주는 소수의 패턴만을 반복적으로 생성하게 되어, 탐색 능력을 잃고 성능 향상이 정체되는 현상이다.
DSDR: 이중 척도 다양성 정규화로 LLM 추론의 pass@k 성능 대폭 향상