본문으로 건너뛰기

sapo

소프트 적응형 정책 최적화

고급

강화학습 과정에서 급격한 가중치 변화를 방지하기 위해 하드 클리핑 대신 온도 제어 소프트 게이트를 사용하는 최적화 알고리즘이다. 학습의 안정성과 효율성을 높여 모델이 더 길고 복잡한 추론 과정을 안정적으로 학습할 수 있게 돕는다.