직교 그래디언트 투영
안전성 업데이트의 gradient를 일반 능력에 해당하는 참조 서브스페이스의 직교 여공간으로 투영하여 first-order 기준으로 일반 능력 손실을 최소화하는 기술. 이로써 안전 업데이트의 방향이 기존 학습된 일반 능력 방향과 간섭하는 것을 줄인다.