함수 근사
상태 공간이 너무 커서 모든 상태-행동 쌍을 테이블에 저장할 수 없을 때, 신경망이나 선형 모델을 사용해 가치 함수나 정책을 근사하는 기법이다. 이를 통해 학습하지 않은 상태에서도 유사한 상태의 정보를 바탕으로 적절한 행동을 예측할 수 있다.