소프트 액터-크리틱
보상뿐만 아니라 정책의 엔트로피를 함께 최대화하여 탐험을 촉진하는 오프-폴리시 강화학습 알고리즘이다. 연속적인 액션 공간에서 매우 효율적이며 안정적인 성능을 보여준다.
전기차 배터리 관리, RL과 MPC 중 무엇이 더 효율적일까?
강화학습 vs MPC: 전기차 배터리 제어의 승자는 누구인가
파이썬 없이 유니티에서 직접 강화학습하는 물리 휴머노이드 오픈소스
보상만으로는 부족하다? RL 에이전트의 '멘탈'을 측정하는 ARCUS-H 프레임워크