분산 분산 근사 정책 최적화
여러 컴퓨팅 자원을 활용하여 대규모 환경에서 로봇의 행동 정책을 효율적으로 학습시키는 강화학습 알고리즘이다. 수억 번의 시행착오를 통해 최적의 내비게이션 경로를 찾아내도록 돕는다.