최소제곱 가치 반복 기반 낙관적 탐색
선형 함수 근사를 사용하는 강화학습 알고리즘으로 불확실성이 높은 상태에서 낙관적으로 행동하여 효율적인 탐색을 수행한다. MDP 환경에서 최적 정책을 찾기 위해 사용된다.