핵심 요약
테이블 기반 방식의 한계를 극복하기 위해 신경망을 활용한 함수 근사를 도입하고, 가치 함수 없이 정책을 직접 최적화하는 Policy Gradient의 수학적 토대를 구축한다. 학습의 안정성을 높이기 위한 Baseline 및 Actor-Critic 기법의 중요성을 강조한다.
배경
스탠퍼드 대학교의 AI 입문 과정인 CS221의 강화학습 두 번째 강의이다.
대상 독자
강화학습의 기초를 이해하고 실전적인 대규모 문제 해결 기법을 배우려는 개발자 및 연구자
의미 / 영향
이 강의는 단순한 알고리즘 소개를 넘어 대규모 AI 시스템 구축에 필수적인 함수 근사와 정책 최적화의 수학적 연결 고리를 명확히 한다. 실무에서 복잡한 제어 문제나 대규모 의사결정 시스템을 설계할 때, 분산 감소 기법과 Actor-Critic 구조를 적용하여 학습 안정성을 확보하는 가이드라인을 제공한다. 이는 현대적인 Deep RL 시스템의 근간이 되는 기술적 원리를 체계적으로 학습할 수 있게 돕는다.
챕터별 상세
강화학습 기초 및 가치 기반 모델 복습
- •Q-learning은 Off-policy 방식으로 최적의 Q-value를 직접 추정한다
- •SARSA는 On-policy 방식으로 현재 정책에 따른 가치를 추정한다
- •모델 프리 방식은 MDP의 전이 확률을 몰라도 피드백만으로 학습이 가능하다
강화학습의 기본 요소인 상태(State), 행동(Action), 보상(Reward) 및 Q-value의 개념을 미리 숙지해야 한다.
함수 근사(Function Approximation)의 도입
- •상태를 고차원 피처 벡터로 매핑하여 신경망의 입력으로 사용한다
- •학습되지 않은 상태에 대해서도 유사한 피처를 통해 가치를 추론하는 일반화가 가능하다
- •PyTorch의 선형 레이어를 활용하여 Q-value 예측 모델을 구현했다
차원의 저주(Curse of Dimensionality)로 인해 발생하는 테이블 기반 방식의 한계를 이해하는 것이 중요하다.
PyTorch를 이용한 파라미터화된 Q-learning 구현
- •Loss 함수는 (예측 Q-value - 타겟 Q-value)^2으로 정의된다
- •타겟값 계산 시 다음 상태에서 가능한 행동 중 최대 Q-value를 선택한다
- •학습 과정에서 Epsilon-greedy 정책을 사용하여 탐험과 활용의 균형을 맞췄다
PyTorch의 자동 미분 기능과 강화학습의 벨만 방정식을 결합하는 논리를 파악해야 한다.
정책 경사(Policy Gradient) 알고리즘의 원리
- •정책을 확률 분포로 모델링하여 행동 선택의 유연성을 확보한다
- •REINFORCE 알고리즘은 에피소드가 끝난 후 전체 보상을 바탕으로 업데이트를 수행한다
- •성공적인 행동의 로그 확률을 보상 크기에 비례하여 증가시킨다
로그 확률의 미분 성질을 이용한 Policy Gradient Theorem의 유도 과정을 이해해야 한다.
분산 감소를 위한 Baseline 및 Actor-Critic 기법
- •Baseline은 보상의 평균적인 수준을 나타내며 업데이트의 기준점이 된다
- •Actor는 정책을 업데이트하고 Critic은 상태 가치를 평가하여 Actor를 돕는다
- •분산 감소 기법을 통해 더 적은 샘플로도 안정적인 정책 학습이 가능하다
통계적 분산이 강화학습의 수렴 속도와 안정성에 미치는 영향을 이해해야 한다.
실무 Takeaway
- 대규모 상태 공간에서는 테이블 대신 신경망을 활용한 Function Approximation을 통해 가치 함수를 근사해야 일반화가 가능하다.
- Policy Gradient는 가치 함수 없이 정책을 직접 최적화하며, 기대 효용의 경사도를 따라 파라미터를 업데이트한다.
- 학습의 분산을 줄이기 위해 보상에서 Baseline을 차감하는 기법은 Policy Gradient 알고리즘의 실용성을 높이는 핵심 요소이다.
- Actor-Critic 방식은 정책 기반의 유연성과 가치 기반의 안정성을 결합하여 복잡한 환경에서 효율적인 학습을 가능하게 한다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.