본문으로 건너뛰기

피드 트렌딩 커뮤니티 공지사항 기술 태그 AI 용어 사전 서비스 소개 문의 운영 정책 개인정보 처리방침

매일 업데이트되는 글로벌 소스의 AI/ML 뉴스를 수집하고 한국어로 요약합니다.

AI Trends·후원

피드 트렌딩 커뮤니티 공지

피드 트렌딩 커뮤니티 공지

온폴리시 증류 (on-policy-distillation) 용어 설명 | AI Trends

on-policy-distillation

온폴리시 증류

중급

모델이 현재 자신의 정책으로 생성한 데이터를 사용하여 학습을 진행하는 방식이다. 훈련 데이터와 실제 추론 데이터의 분포를 일치시켜 성능을 안정화하고 파괴적 망각을 방지하는 데 중요하다.

비슷한 개념

on-policy-inference on-policy-training on-policy-cross-stage-distillation on-policy-optimization on-policy on-policy-fine-tuning on-policy-learning off-policy-rl

← 용어 사전 전체 보기