소프트 액터-크리틱
보상뿐만 아니라 정책의 엔트로피를 함께 최대화하여 탐험을 촉진하는 오프-폴리시 강화학습 알고리즘이다. 연속적인 액션 공간에서 매우 효율적이며 안정적인 성능을 보여준다.