대리 목적 함수
직접 최적화하기 어려운 원래의 목적 함수 대신 사용하는 근사 함수이다. PPO에서는 정책 업데이트 시 급격한 변화를 막기 위해 클리핑된 대리 목적 함수를 사용하여 안정적인 학습을 도모한다.