정규화된 마르코프 결정 과정(Regularised MDPs)의 이론과 응용

핵심 요약

강화학습에서 엔트로피 정규화는 널리 쓰이지만 일반적인 볼록 정규화(Convex Regularisation)에 대한 이론적 이해는 부족한 경우가 많다. 이 글은 고전적인 벨만 연산자에 볼록 정규화를 도입하여 정규화된 정책 반복(Policy Iteration) 알고리즘의 수렴성을 수학적으로 증명한다. 특히 볼록 공액(Convex Conjugate)과 브레그먼 발산(Bregman Divergence)을 활용해 정규화된 연산자가 여전히 수축 사상(Contraction Mapping)임을 보여준다. 결과적으로 Soft Actor-Critic(SAC)이나 PPO와 같은 현대적 알고리즘들이 이러한 일반화된 정규화 프레임워크의 특수한 사례임이 확인된다.

배경

마르코프 결정 과정(MDP), 벨만 방정식, 볼록 최적화 기초, 강화학습 기초

대상 독자

강화학습 알고리즘의 수학적 원리를 깊게 이해하고자 하는 연구자 및 개발자

의미 / 영향

이 이론적 프레임워크는 파편화된 다양한 강화학습 알고리즘들을 정규화된 MDP라는 하나의 통합된 관점에서 바라보게 해준다. 이는 향후 새로운 정규화 기법이나 더 효율적인 최적화 알고리즘을 설계하는 데 있어 강력한 기초가 된다.

섹션별 상세

기존 벨만 연산자에 강볼록 함수(Strongly Convex Function) Ω를 도입하여 정규화된 가치 함수를 정의한다. 정규화된 평가 연산자는 기존 연산자의 선형성, 단조성, 수축성을 그대로 계승하며 따라서 고유한 고정점인 정규화된 가치 함수로 수렴한다. 이는 정규화가 포함되어도 가치 반복이나 정책 반복 알고리즘을 안정적으로 수행할 수 있는 이론적 근거가 된다.

정규화된 벨만 최적 연산자는 볼록 공액 함수 Ω*를 사용하여 정의된다. 최적 정규화 정책은 볼록 공액의 그래디언트를 통해 계산할 수 있으며 이는 탐험(Exploration)과 착취(Exploitation) 사이의 균형을 수학적으로 제어하는 역할을 한다. 엔트로피 정규화의 경우 이 과정에서 소프트맥스(Softmax) 분포가 자연스럽게 도출된다.

정규화는 가치 함수에 편향(Bias)을 유도하지만 그 오차 범위는 정규화 함수의 상한과 하한 그리고 할인 인자에 의해 결정된다. 정규화된 정책을 따를 때의 실제 할인 누적 보상이 최적 보상과 비교하여 일정한 경계 내에 있음이 수식으로 증명된다. 이는 정규화가 학습의 안정성을 높이면서도 성능 저하를 통제 가능한 수준으로 유지할 수 있음을 시사한다.

정적 정규화의 편향 문제를 해결하기 위해 현재 정책과의 거리를 제한하는 동적 정규화 기법이 존재한다. 브레그먼 발산(Bregman Divergence)을 활용한 거울 하강법(Mirror Descent) 업데이트 방식은 정책 개선 단계에서 급격한 변화를 방지하며 이는 PPO나 MPO와 같은 현대적 알고리즘의 핵심 메커니즘과 일치한다. 특히 KL 발산을 정규화 도구로 사용하는 방식이 거울 하강법의 특수한 형태임이 강조된다.

실무 Takeaway

강화학습 알고리즘 설계 시 단순 엔트로피 외에도 다양한 볼록 함수를 정규화 도구로 활용하여 에이전트의 행동 편향을 정교하게 제어할 수 있다.
SAC나 PPO 같은 알고리즘의 하이퍼파라미터 튜닝 시 이를 볼록 최적화 관점의 정규화 계수로 이해하면 성능 최적화에 대한 명확한 직관을 얻게 된다.
정규화로 인한 성능 손실은 수식적으로 계산 가능하므로 이론적 경계를 고려하여 정규화 강도를 설정해야 한다.

언급된 리소스

논문A Theory of Regularized Markov Decision Processes (Geist et al, 2019)

논문Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor