크로스-태스크 어드밴티지 노멀라이제이션
태스크 간 경계에서 보상 분포의 스케일이 급격히 변하는 것을 억제하기 위해, 연속적인 EMA로 reward statistics를 누적 보존하고 그룹 내 평균 대비 표준편차로 어드밴티지를 정규화하는 기법이다. 이를 통해 continual learning 중 안정적 크레딧 할당을 유지한다.