분위수 회귀 DQN
보상 분포를 여러 개의 분위수(Quantile)로 근사하여 학습하는 강화학습 알고리즘이다. C51과 같은 기존 이산적 분포 모델링보다 유연하게 분포를 표현할 수 있다.