ppo
Proximal Policy Optimization의 약자로, 강화학습에서 널리 쓰이는 정책 최적화 알고리즘이다. 학습 과정의 안정성이 높고 구현이 비교적 쉬워 다양한 로봇 제어 작업의 기본 알고리즘으로 권장된다.
스네이크부터 축구까지, 강화학습 에이전트의 성장을 직접 확인하세요
강화학습으로 축구 팀을 제어한다? RL 토이박스 프로젝트 공개
Z-score 정규화 후 성능 급락? 강화학습 입력 데이터 스케일링의 함정
SB3와 트랜스포머로 만든 포트폴리오 AI, 왜 학습이 안 될까?
지오메트리 대시 5단계까지 정복한 PPO 강화학습 에이전트