직교 표현 개입(orthogonalized-representation-intervention)이란 무엇인가요?

Question

Accepted Answer

모델의 활성화 값에서 특정 개념(거절 등)을 담당하는 방향을 찾아내고, 가중치 행렬을 해당 방향과 직교하도록 수정하는 정교한 간섭 기법이다. 단순 파인튜닝보다 모델의 원래 지능을 덜 훼손하면서 특정 행동 양식만 수정할 수 있다.

orthogonalized-representation-intervention