분할 및 집계 정책 그래디언트
대규모 병렬 시뮬레이션 환경에서 탐색 병목 현상을 해결하기 위해 여러 정책 인구를 유지하고 리더 정책을 업데이트하는 강화학습 알고리즘임. 복잡한 다지 조작 기술을 효율적으로 학습하게 함.