본문으로 건너뛰기

피드 트렌딩 커뮤니티 공지사항 기술 태그 AI 용어 사전 서비스 소개 문의 운영 정책 개인정보 처리방침

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI Trends·후원

피드 트렌딩 커뮤니티 공지

피드 트렌딩 커뮤니티 공지

온폴리시 최적화 (on-policy-optimization) 용어 설명 | AI Trends

on-policy-optimization

온폴리시 최적화

고급

현재 학습 중인 정책이 직접 생성한 데이터만을 사용하여 모델을 업데이트하는 방식이다. 데이터의 신뢰도는 높지만 샘플 활용 효율이 낮아 학습 비용이 많이 발생하는 단점이 있다.

비슷한 개념

on-policy-training on-policy-learning on-policy on-policy-inference on-policy-fine-tuning on-policy-rl off-policy-rl on-policy-distillation

← 용어 사전 전체 보기