본문으로 건너뛰기
최소제곱 가치 반복 기반 낙관적 탐색 (lsvi-ucb) 용어 설명 | AI Trends