클리핑된 중요도 샘플링 정책 최적화
GRPO의 변형으로 중요도 샘플링 가중치를 클리핑하여 엔트로피 붕괴를 방지하는 강화학습 알고리즘이다. 모든 토큰이 학습에 기여하도록 설계되어 에이전트의 의사결정 효율을 높인다.