본문으로 건너뛰기
AI Trends
피드
트렌딩
커뮤니티
공지
로그인
피드
트렌딩
커뮤니티
공지
혼합정책 최적화 (mixed-policy-optimization) 용어 설명 | AI Trends
mixed-policy-optimization
혼합정책 최적화
중급
guided 롤아웃과 unguided 롤아웃을 함께 학습하여 가이던스가 테스트 시점 unguided 정책으로 내부화되도록 하는 최적화 방식.
비슷한 개념
policy-optimization
policy-recovery
hindsight-guided-opd
stochastic-policy
opd
policy-learning
on-policy-optimization
m-grpo
← 용어 사전 전체 보기