온-폴리시
강화학습에서 현재 학습 중인 모델이 직접 생성한 데이터를 바탕으로 업데이트를 수행하는 방식이다. 타사 모델의 데이터를 사용하는 오프-폴리시(Off-policy)와 대비된다.
DeepSeek가 Claude를 훔쳤다? Anthropic의 폭로와 AI 증류의 실체