mirror-descent
표준 경사 하강법을 일반화하여 기하학적 구조에 맞는 정규화(브레그먼 발산)를 사용하는 최적화 알고리즘이다. 강화학습에서는 정책 개선 단계를 미러 데센트 업데이트로 해석하여 학습의 안정성을 높이는 데 활용된다.
어텐션 메커니즘의 성능을 높이는 미러 디센트의 비밀
강화학습 성능을 결정짓는 정규화의 수학적 원리와 알고리즘