근사 Q-학습
상태 공간이 너무 커서 모든 Q-값을 테이블에 저장할 수 없을 때, 함수 근사기(주로 신경망)를 사용하여 Q-값을 추정하는 방식이다. 복잡한 환경에서 에이전트가 최적의 행동을 결정하도록 돕는 핵심 메커니즘이다.