bregman-divergence
특정 볼록 함수에 대해 정의된 두 점 사이의 거리 척도로, 유클리드 거리나 KL 발산을 일반화한 개념이다. 미러 데센트 알고리즘에서 정책 업데이트 시 현재 정책과의 근접성을 유지하는 정규화 항으로 사용된다.
특정 볼록 함수에 대해 정의된 두 점 사이의 거리 척도로, 유클리드 거리나 KL 발산을 일반화한 개념이다. 미러 데센트 알고리즘에서 정책 업데이트 시 현재 정책과의 근접성을 유지하는 정규화 항으로 사용된다.