MDP에서 최적 정책이 결정론적인 이유와 확률적 정책의 필요성

핵심 요약

표준 MDP에서 최적 정책이 수학적으로 결정론적임에도 불구하고, 현대 강화학습 알고리즘이 탐험과 최적화를 위해 확률적 정책을 사용하는 이유를 벨만 최적성 방정식을 통해 분석한다.

배경

표준 MDP(Markov Decision Process) 환경에서 벨만 최적성 방정식에 따르면 최적 정책은 항상 결정론적(Deterministic)으로 선택될 수 있다는 수학적 증명을 제시하며, 그럼에도 불구하고 PPO나 SAC 같은 현대 알고리즘이 왜 확률적(Stochastic) 정책을 학습하는지에 대한 의문을 제기했다.

의미 / 영향

이론적 최적해의 결정론적 성격과 실무적 알고리즘의 확률적 접근 사이의 괴리는 강화학습의 핵심인 탐험과 활용의 균형을 보여준다. 수학적 증명은 최종 목표를 제시하지만, 실제 구현에서는 미분 가능성과 전역 최적해 탐색을 위해 확률적 모델링이 필수적임이 확인됐다.

커뮤니티 반응

수학적 증명과 실제 알고리즘 구현 사이의 차이에 대해 깊이 있는 기술적 논의가 이루어졌다.

주요 논점

01중립다수

수학적으로는 결정론적 정책이 최적이지만, 실제 학습 효율과 수렴성을 위해 확률적 정책이 필수적이다.

합의점 vs 논쟁점

합의점

벨만 최적성 하에서 최적 정책은 결정론적이다
학습 과정에서 탐험은 필수적이다

실용적 조언

이론적 최적해는 결정론적이지만, 학습 안정성을 위해 확률적 정책과 엔트로피 보상을 활용하는 것이 유리하다.

전문가 의견

정책 경사법에서 확률적 정책은 목적 함수의 매끄러운(smooth) 근사를 제공하여 학습을 가능하게 한다.

언급된 도구

PPO추천

정책 경사 기반 강화학습 알고리즘

SAC추천

엔트로피 최대화 기반 강화학습 알고리즘

섹션별 상세

벨만 최적성 방정식(Bellman Optimality Equation)에 기반한 수학적 증명을 통해 최적 정책의 결정론적 성질을 분석했다. 상태 가치 함수 V*(s)는 가능한 모든 정책 중 q*(s, a)의 기댓값을 최대화하는 정책을 찾는 과정이며, 이는 결국 가중치 합이 1인 가중 평균 문제로 귀결된다. 가중 평균의 최대값은 항상 가장 큰 원소에 모든 가중치를 부여할 때 발생하므로, 최적 정책은 q값이 가장 큰 행동에 확률 1을 부여하는 결정론적 형태가 된다.

현대 강화학습 알고리즘인 PPO(Proximal Policy Optimization)나 SAC(Soft Actor-Critic)가 확률적 정책을 사용하는 이유에 대해 탐험(Exploration)과 최적화 관점의 가설을 검토했다. 학습 과정에서 다양한 상태-행동 쌍을 경험하기 위한 탐험의 도구로서 확률성이 필수적이라는 점과, 경사 하강법(Gradient Descent)을 적용하기 위해 미분 가능한 형태의 정책 표현이 필요하다는 기술적 배경을 확인했다. 이론적 최적점은 결정론적이지만 학습 초기에는 어떤 행동이 최적인지 알 수 없으므로 확률 분포를 통해 점진적으로 수렴해가는 방식을 취한다.

결정론적 정책과 확률적 정책 사이의 간극은 이론적 최적점과 실전 학습 과정의 차이에서 기인한다. 특히 엔트로피 정규화(Entropy Regularization)를 사용하는 SAC 같은 알고리즘은 명시적으로 정책의 무작위성을 유지하여 국소 최적해(Local Optima) 탈출을 돕는다. 이는 정책 경사법에서 확률적 정책이 목적 함수의 매끄러운(smooth) 근사를 제공하여 안정적인 학습을 가능하게 한다는 점과 일맥상통한다.

실무 Takeaway

표준 MDP에서 최적 정책은 수학적으로 항상 결정론적인 그리디(Greedy) 정책으로 선택 가능하다.
현대 RL 알고리즘이 확률적 정책을 쓰는 주된 이유는 학습 중 충분한 탐험(Exploration)을 보장하기 위함이다.
확률적 정책은 정책 경사(Policy Gradient) 계산 시 미분 가능성을 제공하여 안정적인 최적화를 가능하게 한다.
이론적 최적해는 결정론적이지만, 학습 과정의 효율성을 위해 확률적 모델링이 필수적이다.