Stanford OnlineAI/ML

스탠포드 CS221: 강화 학습 - 원리와 알고리즘

마르코프 결정 과정(MDP)의 기초부터 모델 기반 및 모델 프리 강화 학습(Monte Carlo, SARSA, Q-learning)의 핵심 알고리즘과 작동 원리를 상세히 다룹니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

강화 학습은 환경의 모델을 모르는 상태에서 보상을 최대화하는 최적의 정책을 찾아가는 과정이다. 에피소드 전체를 활용하는 Monte Carlo 방식부터 즉각적인 업데이트가 가능한 Bootstrapping 기반의 SARSA와 Q-learning까지 다양한 접근법이 존재한다.

배경

스탠포드 대학교의 인공지능 입문 과정인 CS221의 강의로, 에이전트가 환경과의 상호작용을 통해 학습하는 강화 학습의 핵심 개념을 다룹니다.

대상 독자

강화 학습의 수학적 기초와 알고리즘 구현 방식을 배우고자 하는 컴퓨터 과학 전공자 및 AI 개발자

의미 / 영향

이 강의는 강화 학습의 기초 알고리즘들을 체계적으로 비교하여 실무자가 문제 특성에 맞는 알고리즘을 선택할 수 있는 기준을 제공한다. 복잡한 환경 모델을 직접 설계하기 어려운 실제 문제에서 모델 프리 강화 학습 알고리즘이 유연한 해결책이 될 수 있음을 보여준다. 특히 Q-learning의 Off-policy 특성은 다양한 탐험 전략과 결합하여 자율 주행이나 게임 AI 등 실전 분야에 널리 응용될 수 있는 토대를 마련한다.

챕터별 상세

00:00

마르코프 결정 과정(MDP) 복습

강화 학습의 기초가 되는 마르코프 결정 과정(MDP)의 구성 요소를 복습한다. 상태(State), 행동(Action), 전이 확률(Transition Probability), 보상(Reward), 할인 계수(Discount Factor)를 정의하고, 에이전트가 각 상태에서 취할 행동을 결정하는 정책(Policy)의 개념을 확인한다. 상태의 가치(Value)는 해당 상태에서 정책을 따랐을 때 기대되는 할인된 보상의 합계로 계산된다.

•상태 전이 확률 T(s, a, s')와 보상 함수 R(s, a, s')이 MDP의 핵심이다
•정책 파이(π)는 상태를 행동으로 매핑하는 함수이다
•가치 반복(Value Iteration)을 통해 최적 정책을 도출할 수 있다

MDP는 미래의 상태가 현재의 상태와 행동에만 의존한다는 마르코프 성질을 가정한 의사결정 모델이다.

11:20

강화 학습의 도입과 에이전트-환경 상호작용

강화 학습은 MDP의 전이 확률과 보상 함수를 사전에 모르는 상태에서 시작한다. 에이전트는 환경 내에서 행동을 취하고, 그 결과로 주어지는 보상과 다음 상태를 관찰하며 학습한다. 이 과정은 에이전트가 행동을 생성하고 환경이 피드백을 주는 반복적인 루프로 구성된다. 학습의 목표는 시행착오를 통해 장기적인 보상을 최대화하는 최적의 정책을 찾는 것이다.

•에이전트는 get_action과 incorporate_feedback 두 가지 주요 기능을 수행한다
•학습 초기에는 환경에 대한 정보가 없으므로 탐험(Exploration)이 필수적이다
•보상은 행동의 결과로 주어지는 수치적 신호이며 비용의 음수 값으로 이해할 수 있다

강화 학습은 정답지가 주어지는 지도 학습과 달리 보상 신호만을 통해 스스로 학습해야 한다.

24:58

모델 기반 가치 반복(Model-Based Value Iteration)

에이전트가 경험한 데이터를 바탕으로 환경의 모델(T, R)을 직접 추정한 뒤, 이를 바탕으로 가치 반복을 수행하는 방식이다. 상태 s에서 행동 a를 취해 s'으로 이동한 횟수를 카운트하여 전이 확률을 계산하고, 관찰된 보상의 평균을 내어 보상 함수를 만든다. 학습된 모델이 실제 환경과 유사해질수록 가치 반복을 통해 얻은 정책이 최적 정책에 수렴하게 된다. 데이터 효율성은 높지만 상태 공간이 커질수록 모델 저장 및 계산 비용이 증가하는 단점이 있다.

•상태 전이 횟수를 기록하여 확률 T(s, a, s')를 추정한다
•추정된 모델을 기반으로 기존의 가치 반복 알고리즘을 그대로 적용한다
•탐험 정책을 통해 충분한 데이터를 수집하는 것이 성능의 핵심이다

모델 기반 방식은 환경이 어떻게 작동하는지에 대한 내부 지도를 먼저 그리는 것과 같다.

43:58

모델 프리 몬테카를로(Model-Free Monte Carlo)

환경의 모델을 추정하지 않고 에피소드가 끝날 때까지 얻은 실제 보상의 합계를 평균 내어 Q-value를 직접 추정하는 방식이다. 에피소드가 완료된 후에만 업데이트가 가능하며, 각 상태-행동 쌍에 대해 관찰된 모든 수익(Return)의 평균을 유지한다. 모델을 저장할 필요가 없어 메모리 효율적이지만, 에피소드가 길 경우 업데이트가 늦어지고 분산이 커질 수 있다. 탐험과 활용의 균형을 위해 Epsilon-greedy 정책을 주로 사용한다.

•에피소드가 종료된 후 할인된 보상의 합계를 계산하여 업데이트한다
•Q(s, a)는 해당 상태-행동 쌍에서 얻은 유틸리티의 평균값이다
•모델을 명시적으로 구축하지 않고도 최적 정책에 접근할 수 있다

몬테카를로 방식은 실제 경험한 결과만을 바탕으로 가치를 평가하는 경험적 접근법이다.

56:30

SARSA: On-Policy Bootstrapping

에피소드가 끝나기를 기다리지 않고, 현재의 보상과 다음 상태에서 선택한 행동의 Q-value를 이용해 즉시 업데이트하는 방식이다. 현재 에이전트가 따르고 있는 정책(On-policy) 하에서의 가치를 학습한다. 업데이트 수식은 현재 Q-value를 (보상 + 할인 계수 * 다음 상태의 Q-value) 방향으로 조금씩 수정하는 형태이다. Bootstrapping 기법을 통해 매 단계마다 학습이 일어나므로 실시간 학습에 유리하다.

•다음 상태에서 실제로 취할 행동(a')의 Q-value를 업데이트에 사용한다
•현재 정책의 성능을 평가하며 동시에 개선하는 On-policy 방식이다
•학습률(Learning Rate)을 통해 새로운 정보와 기존 지식의 반영 비율을 조절한다

SARSA라는 이름은 State-Action-Reward-State-Action의 약자로, 업데이트에 필요한 데이터 순서를 의미한다.

68:48

Q-Learning: Off-Policy Bootstrapping

SARSA와 유사하지만, 다음 상태에서 실제로 취할 행동이 아닌 '가장 높은 가치를 가진 행동'의 Q-value를 사용하여 업데이트한다. 이는 에이전트가 현재 탐험을 위해 무작위 행동을 하더라도, 학습은 최적의 행동을 가정하고 진행되는 Off-policy 특성을 가진다. 결과적으로 탐험 정책과 무관하게 최적의 Q-value 함수(Q*)를 직접 추정하게 된다. SARSA보다 수렴 속도가 빠르고 최적해를 찾는 데 더 강력한 성능을 보이는 경우가 많다.

•다음 상태의 최대 Q-value인 max Q(s', a')를 사용하여 업데이트한다
•탐험을 수행하면서도 최적 정책의 가치를 직접 학습할 수 있다
•Bellman 최적 방정식을 반복적으로 풀어가는 과정으로 이해할 수 있다

Off-policy는 학습하는 정책과 행동하는 정책이 서로 다를 수 있음을 의미한다.

실무 Takeaway

환경의 전이 모델을 모를 때는 에이전트가 직접 행동하며 얻은 보상 데이터를 통해 Q-value를 업데이트하여 최적 정책을 찾아야 한다.
Q-learning은 현재의 탐험 정책과 별개로 최적의 가치를 학습하는 Off-policy 특성을 가져 데이터 활용도가 높고 최적해 수렴이 빠르다.
Bootstrapping 기법을 사용하는 SARSA와 Q-learning은 에피소드 완료 전에도 실시간 업데이트가 가능하여 긴 에피소드 환경에서 효율적이다.
탐험(Exploration)과 활용(Exploitation)의 균형을 맞추기 위해 Epsilon-greedy와 같은 전략을 적절히 섞어 사용해야 지역 최적해에 빠지지 않는다.

언급된 리소스

문서CS221 Autumn 2025 Course Schedule

튜토리얼CS221 Artificial Intelligence: Principles and Techniques Course Page

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 03. 10.수집 2026. 03. 10.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

스탠포드 CS221: 강화 학습 - 원리와 알고리즘 | AI Trends