핵심 요약
강화 학습은 환경의 모델을 모르는 상태에서 보상을 최대화하는 최적의 정책을 찾아가는 과정이다. 에피소드 전체를 활용하는 Monte Carlo 방식부터 즉각적인 업데이트가 가능한 Bootstrapping 기반의 SARSA와 Q-learning까지 다양한 접근법이 존재한다.
배경
스탠포드 대학교의 인공지능 입문 과정인 CS221의 강의로, 에이전트가 환경과의 상호작용을 통해 학습하는 강화 학습의 핵심 개념을 다룹니다.
대상 독자
강화 학습의 수학적 기초와 알고리즘 구현 방식을 배우고자 하는 컴퓨터 과학 전공자 및 AI 개발자
의미 / 영향
이 강의는 강화 학습의 기초 알고리즘들을 체계적으로 비교하여 실무자가 문제 특성에 맞는 알고리즘을 선택할 수 있는 기준을 제공한다. 복잡한 환경 모델을 직접 설계하기 어려운 실제 문제에서 모델 프리 강화 학습 알고리즘이 유연한 해결책이 될 수 있음을 보여준다. 특히 Q-learning의 Off-policy 특성은 다양한 탐험 전략과 결합하여 자율 주행이나 게임 AI 등 실전 분야에 널리 응용될 수 있는 토대를 마련한다.
챕터별 상세
마르코프 결정 과정(MDP) 복습
MDP는 미래의 상태가 현재의 상태와 행동에만 의존한다는 마르코프 성질을 가정한 의사결정 모델이다.
강화 학습의 도입과 에이전트-환경 상호작용
강화 학습은 정답지가 주어지는 지도 학습과 달리 보상 신호만을 통해 스스로 학습해야 한다.
모델 기반 가치 반복(Model-Based Value Iteration)
모델 기반 방식은 환경이 어떻게 작동하는지에 대한 내부 지도를 먼저 그리는 것과 같다.
모델 프리 몬테카를로(Model-Free Monte Carlo)
몬테카를로 방식은 실제 경험한 결과만을 바탕으로 가치를 평가하는 경험적 접근법이다.
SARSA: On-Policy Bootstrapping
SARSA라는 이름은 State-Action-Reward-State-Action의 약자로, 업데이트에 필요한 데이터 순서를 의미한다.
Q-Learning: Off-Policy Bootstrapping
Off-policy는 학습하는 정책과 행동하는 정책이 서로 다를 수 있음을 의미한다.
실무 Takeaway
- 환경의 전이 모델을 모를 때는 에이전트가 직접 행동하며 얻은 보상 데이터를 통해 Q-value를 업데이트하여 최적 정책을 찾아야 한다.
- Q-learning은 현재의 탐험 정책과 별개로 최적의 가치를 학습하는 Off-policy 특성을 가져 데이터 활용도가 높고 최적해 수렴이 빠르다.
- Bootstrapping 기법을 사용하는 SARSA와 Q-learning은 에피소드 완료 전에도 실시간 업데이트가 가능하여 긴 에피소드 환경에서 효율적이다.
- 탐험(Exploration)과 활용(Exploitation)의 균형을 맞추기 위해 Epsilon-greedy와 같은 전략을 적절히 섞어 사용해야 지역 최적해에 빠지지 않는다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.