Q-값
특정 상태에서 특정 행동을 취했을 때 기대할 수 있는 총 보상의 합으로, 행동 가치 함수라고도 불린다.
모델이 이미 아는 데이터에 학습 비용을 낭비하지 마세요: GEKO 공개
복잡한 시그마 기호 대신 벡터 내적으로 이해하는 벨만 방정식