Stanford OnlineAI/ML

스탠퍼드 CS221: 강화학습 II - 함수 근사와 정책 경사 알고리즘

대규모 상태 공간 문제를 해결하기 위한 함수 근사 기법과 정책 경사 알고리즘의 수학적 원리 및 PyTorch 구현 방법을 심도 있게 다룬다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

테이블 기반 방식의 한계를 극복하기 위해 신경망을 활용한 함수 근사를 도입하고, 가치 함수 없이 정책을 직접 최적화하는 Policy Gradient의 수학적 토대를 구축한다. 학습의 안정성을 높이기 위한 Baseline 및 Actor-Critic 기법의 중요성을 강조한다.

배경

스탠퍼드 대학교의 AI 입문 과정인 CS221의 강화학습 두 번째 강의이다.

대상 독자

강화학습의 기초를 이해하고 실전적인 대규모 문제 해결 기법을 배우려는 개발자 및 연구자

의미 / 영향

이 강의는 단순한 알고리즘 소개를 넘어 대규모 AI 시스템 구축에 필수적인 함수 근사와 정책 최적화의 수학적 연결 고리를 명확히 한다. 실무에서 복잡한 제어 문제나 대규모 의사결정 시스템을 설계할 때, 분산 감소 기법과 Actor-Critic 구조를 적용하여 학습 안정성을 확보하는 가이드라인을 제공한다. 이는 현대적인 Deep RL 시스템의 근간이 되는 기술적 원리를 체계적으로 학습할 수 있게 돕는다.

챕터별 상세

00:00

강화학습 기초 및 가치 기반 모델 복습

강화학습의 기본 설정인 Agent와 Environment 간의 상호작용 및 MDP 프레임워크를 재검토했다. Q-learning, SARSA, Monte Carlo 등 지난 강의에서 다룬 모델 프리 기법들의 업데이트 규칙과 차이점을 정리했다. 특히 각 상태-행동 쌍에 대해 값을 저장하는 테이블 기반 방식의 구조를 확인했다.

•Q-learning은 Off-policy 방식으로 최적의 Q-value를 직접 추정한다
•SARSA는 On-policy 방식으로 현재 정책에 따른 가치를 추정한다
•모델 프리 방식은 MDP의 전이 확률을 몰라도 피드백만으로 학습이 가능하다

강화학습의 기본 요소인 상태(State), 행동(Action), 보상(Reward) 및 Q-value의 개념을 미리 숙지해야 한다.

17:00

함수 근사(Function Approximation)의 도입

이미지나 문장과 같이 상태 공간이 무한에 가까운 실제 문제에서는 테이블 기반 방식을 사용할 수 없음을 지적했다. 이를 해결하기 위해 상태를 피처 벡터로 변환하고 파라미터화된 함수를 통해 Q-value를 예측하는 Function Approximation 기법을 도입했다. 선형 모델이나 신경망을 활용하여 유사한 상태에 대한 가치를 일반화할 수 있는 구조를 설계했다.

•상태를 고차원 피처 벡터로 매핑하여 신경망의 입력으로 사용한다
•학습되지 않은 상태에 대해서도 유사한 피처를 통해 가치를 추론하는 일반화가 가능하다
•PyTorch의 선형 레이어를 활용하여 Q-value 예측 모델을 구현했다

차원의 저주(Curse of Dimensionality)로 인해 발생하는 테이블 기반 방식의 한계를 이해하는 것이 중요하다.

24:00

PyTorch를 이용한 파라미터화된 Q-learning 구현

신경망을 활용한 Q-learning의 업데이트 과정을 코드로 구현했다. 예측값과 타겟값 사이의 Squared Loss를 정의하고, 역전파를 통해 모델의 파라미터를 업데이트하는 과정을 시연했다. 타겟값은 즉각적인 보상과 다음 상태의 예상 가치를 합산한 Bootstrapping 방식으로 계산했다.

•Loss 함수는 (예측 Q-value - 타겟 Q-value)^2으로 정의된다
•타겟값 계산 시 다음 상태에서 가능한 행동 중 최대 Q-value를 선택한다
•학습 과정에서 Epsilon-greedy 정책을 사용하여 탐험과 활용의 균형을 맞췄다

PyTorch의 자동 미분 기능과 강화학습의 벨만 방정식을 결합하는 논리를 파악해야 한다.

42:00

정책 경사(Policy Gradient) 알고리즘의 원리

가치 함수를 거치지 않고 정책을 직접 최적화하는 Policy-based 방식의 장점을 논의했다. 기대 효용(Expected Utility)을 최대화하기 위해 정책 파라미터에 대한 경사도를 계산하는 수학적 유도 과정을 상세히 다뤘다. 이를 통해 보상이 높은 궤적(Trajectory)의 발생 확률을 높이는 REINFORCE 알고리즘의 구조를 도출했다.

•정책을 확률 분포로 모델링하여 행동 선택의 유연성을 확보한다
•REINFORCE 알고리즘은 에피소드가 끝난 후 전체 보상을 바탕으로 업데이트를 수행한다
•성공적인 행동의 로그 확률을 보상 크기에 비례하여 증가시킨다

로그 확률의 미분 성질을 이용한 Policy Gradient Theorem의 유도 과정을 이해해야 한다.

61:00

분산 감소를 위한 Baseline 및 Actor-Critic 기법

Policy Gradient의 높은 분산 문제를 해결하기 위해 Baseline을 도입하는 방법을 다뤘다. 상태에만 의존하는 함수를 보상에서 차감함으로써 경사도의 기댓값은 유지하면서 분산을 획기적으로 줄일 수 있음을 증명했다. 더 나아가 가치 함수와 정책을 동시에 학습하는 Actor-Critic 구조로 확장하여 학습의 효율성을 극대화했다.

•Baseline은 보상의 평균적인 수준을 나타내며 업데이트의 기준점이 된다
•Actor는 정책을 업데이트하고 Critic은 상태 가치를 평가하여 Actor를 돕는다
•분산 감소 기법을 통해 더 적은 샘플로도 안정적인 정책 학습이 가능하다

통계적 분산이 강화학습의 수렴 속도와 안정성에 미치는 영향을 이해해야 한다.

실무 Takeaway

대규모 상태 공간에서는 테이블 대신 신경망을 활용한 Function Approximation을 통해 가치 함수를 근사해야 일반화가 가능하다.
Policy Gradient는 가치 함수 없이 정책을 직접 최적화하며, 기대 효용의 경사도를 따라 파라미터를 업데이트한다.
학습의 분산을 줄이기 위해 보상에서 Baseline을 차감하는 기법은 Policy Gradient 알고리즘의 실용성을 높이는 핵심 요소이다.
Actor-Critic 방식은 정책 기반의 유연성과 가치 기반의 안정성을 결합하여 복잡한 환경에서 효율적인 학습을 가능하게 한다.

언급된 리소스

문서CS221 Autumn 2025 Course Schedule

논문REINFORCE Algorithm (Williams, 1992)

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 03. 10.수집 2026. 03. 10.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

스탠퍼드 CS221: 강화학습 II - 함수 근사와 정책 경사 알고리즘 | AI Trends