본문으로 건너뛰기

AI Trends

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

둘러보기

피드 트렌딩 커뮤니티 공지사항

탐색

기술 태그 AI 용어 사전

서비스

서비스 소개 문의

정책

운영 정책 개인정보 처리방침

© 2026 AI Trends. All rights reserved.후원

피드 트렌딩 커뮤니티

홈 트렌딩 검색 커뮤니티 프로필

이득 조건부 정책 (advantage-conditioned-policy) 용어 설명 | AI Trends

advantage-conditioned-policy

이득 조건부 정책

고급

현재 행동이 평균적인 기대치보다 얼마나 더 나은지를 나타내는 이득(Advantage) 신호를 입력 조건으로 받아 행동을 결정하는 방식이다. 이를 통해 로봇은 학습된 경험 중 더 우수한 행동을 선택적으로 수행할 수 있다.

비슷한 개념

advantage-estimation policy-learning advantage-re-estimation a2c optimal-policy stochastic-policy distributional-rl advantage-function

← 용어 사전 전체 보기