trajectory-수준 드리프트 무관성 (trajectory-level-drift-agnosticism) 용어 설명 | AI Trends
trajectory-level-drift-agnosticism
trajectory-수준 드리프트 무관성
중급
동일한 task reward를 얻는 서로 다른 rollout이 앞선 task 정책 πt−1에 대한 분포 드리프트의 크기가 다르게 나타나는 현상이다. 이 차이는 학습 신호의 방향성과 강도를 다르게 만들어 이전 지식의 보존 정도에 영향을 주며 망각과 밀접한 연관이 있다. 본 연구에서 이를 동일 보상 하의 드리프트 차이에 따른 선택 편향으로 관찰한다.