convex-conjugate
함수의 기울기와 변수 사이의 최대 차이를 나타내는 변환으로, 르장드르-펜첼 변환이라고도 한다. 정규화된 MDP에서 최적 정책을 계산할 때 정규화 함수의 공액 함수 기울기를 사용하여 닫힌 형태의 해를 구하는 데 필수적이다.
함수의 기울기와 변수 사이의 최대 차이를 나타내는 변환으로, 르장드르-펜첼 변환이라고도 한다. 정규화된 MDP에서 최적 정책을 계산할 때 정규화 함수의 공액 함수 기울기를 사용하여 닫힌 형태의 해를 구하는 데 필수적이다.