lsvi-ucb
선형 함수 근사를 사용하는 강화학습 알고리즘으로 불확실성이 높은 상태에서 낙관적으로 행동하여 효율적인 탐색을 수행한다. MDP 환경에서 최적 정책을 찾기 위해 사용된다.
부정직한 입찰자도 막는다! 강화학습 기반 경매 최적화 알고리즘 CLUB 공개