소프트 액터-크리틱
강화학습 알고리즘 중 하나로, 보상뿐만 아니라 행동의 다양성(엔트로피)을 함께 극대화하여 안정적이고 효율적인 학습을 가능하게 한다. RAMP에서는 최적의 비트 할당 전략을 찾는 엔진 역할을 한다.