본문으로 건너뛰기
AI Trends
피드
트렌딩
커뮤니티
공지
로그인
피드
트렌딩
커뮤니티
공지
온-정책 실패 궤적 (on-policy-failure-trajectory) 용어 설명 | AI Trends
on-policy-failure-trajectory
온-정책 실패 궤적
중급
현재 정책이 실제로 생성한 실패 궤적을 이용해 정책 개선에 필요한 학습 데이터를 구성하는 개념이다.
비슷한 개념
on-policy-optimization
on-policy-training
on-policy-fine-tuning
online-finetuning
on-policy
on-policy-learning
off-policy-training
off-policy-learning
← 용어 사전 전체 보기