본문으로 건너뛰기
BandPO: 확률 인지 경계를 통한 LLM 강화학습의 신뢰 영역과 비율 클리핑 연결 | AI Trends