Pareto-Front 정책 최적화(PFPO)
PFPO는 다중 목표에서 비지배해를 남기도록 Pareto front를 구성하고, front-only 점수로 균형 있는 보상으로 정책을 업데이트하는 학습 접근이다.