본문으로 건너뛰기

AI Trends

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

둘러보기

피드 트렌딩 커뮤니티 공지사항 일자별 아카이브

탐색

기술 태그 AI 용어 사전

서비스

서비스 소개 문의

정책

운영 정책 개인정보 처리방침 이용약관

© 2026 AI Trends. All rights reserved.후원

피드 트렌딩 커뮤니티 탐색 보관함

홈 트렌딩 커뮤니티 보관함 프로필

lsvi-ucb

최소제곱 가치 반복 기반 낙관적 탐색

고급

선형 함수 근사를 사용하는 강화학습 알고리즘으로 불확실성이 높은 상태에서 낙관적으로 행동하여 효율적인 탐색을 수행한다. MDP 환경에서 최적 정책을 찾기 위해 사용된다.

비슷한 개념

policy-iteration q-learning greedy-policy approximate-dynamic-programming value-function mbrl optimal-policy deep-reinforcement-learning

← 용어 사전 전체 보기