본문으로 건너뛰기

AI Trends

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

둘러보기

피드 트렌딩 커뮤니티 공지사항

탐색

기술 태그 AI 용어 사전

서비스

서비스 소개 문의

정책

운영 정책 개인정보 처리방침

© 2026 AI Trends. All rights reserved.후원

피드 트렌딩 탐색 보관함

홈 트렌딩 탐색 보관함 프로필

REINFORCE 알고리즘 (reinforce-algorithm) 용어 설명 | AI Trends

reinforce-algorithm

REINFORCE 알고리즘

고급

몬테카를로 방식의 정책 경사법으로, 에피소드가 끝날 때까지의 실제 누적 보상을 사용하여 정책을 업데이트한다. 구현이 간단하고 편향이 없지만, 샘플링에 따른 분산이 매우 크다는 특징이 있다.

비슷한 개념

reinforce maxrl distributional-rl delayed learning-progress reward entropy-regularization stochastic-policy on-policy-training importance-weighting

← 용어 사전 전체 보기