분포 강화학습
보상의 기댓값만을 학습하는 기존 방식과 달리 보상 수익의 전체 확률 분포를 모델링하는 기법이다. 환경의 불확실성을 더 정밀하게 파악할 수 있어 위험 회피가 중요한 로봇 제어 등의 분야에서 안정적인 성능을 제공한다.