본문으로 건너뛰기

AI Trends

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

둘러보기

피드 트렌딩 커뮤니티 공지사항 일자별 아카이브

탐색

기술 태그 AI 용어 사전

서비스

서비스 소개 문의

정책

운영 정책 개인정보 처리방침 이용약관

© 2026 AI Trends. All rights reserved.후원

피드 트렌딩 커뮤니티 탐색 보관함

홈 트렌딩 커뮤니티 보관함 프로필

cispo

클리핑된 중요도 샘플링 정책 최적화

고급

GRPO의 변형으로 중요도 샘플링 가중치를 클리핑하여 엔트로피 붕괴를 방지하는 강화학습 알고리즘이다. 모든 토큰이 학습에 기여하도록 설계되어 에이전트의 의사결정 효율을 높인다.

비슷한 개념

importance-sampling-clipping clipping-range sapo fs-grpo grpo m-grpo group-relative-policy-optimization token-level-importance-sampling

← 용어 사전 전체 보기