Q-러닝
에이전트가 주어진 상태에서 어떤 행동을 취할 때 얻을 수 있는 기대 보상(Q-값)을 학습하는 강화학습 알고리즘이다. 벨만 방정식을 기반으로 최적의 정책을 찾아내며, 테이블 형태나 신경망을 통해 구현된다. 강화학습의 가장 대표적인 가치 기반 학습 방법이다.
Q-러닝의 학습 과정을 실시간으로 확인하는 RL 플레이그라운드
강화학습 알고리즘을 밑바닥부터 직접 구현하며 배우는 실전 강의
강화학습 알고리즘, 밑바닥부터 직접 구현하며 마스터하기