Q-러닝
에이전트가 주어진 상태에서 어떤 행동을 취할 때 얻을 수 있는 기대 보상(Q-값)을 학습하는 강화학습 알고리즘이다. 벨만 방정식을 기반으로 최적의 정책을 찾아내며, 테이블 형태나 신경망을 통해 구현된다. 강화학습의 가장 대표적인 가치 기반 학습 방법이다.