근사 정책 최적화
Proximal Policy Optimization의 약자로, 강화학습에서 널리 쓰이는 정책 최적화 알고리즘이다. 학습 과정의 안정성이 높고 구현이 비교적 쉬워 다양한 로봇 제어 작업의 기본 알고리즘으로 권장된다.