refusal-ablation
모델이 특정 요청을 거부하게 만드는 내부 활성화 성분을 식별하여 제거하거나 무력화하는 기법이다. 가중치 행렬에서 거부 반응과 관련된 방향성을 찾아 이를 투영 등의 방식으로 제거한다. 모델의 안전 가드레일을 아키텍처 수준에서 영구적으로 변형한다는 점에서 중요하다.
모델이 특정 요청을 거부하게 만드는 내부 활성화 성분을 식별하여 제거하거나 무력화하는 기법이다. 가중치 행렬에서 거부 반응과 관련된 방향성을 찾아 이를 투영 등의 방식으로 제거한다. 모델의 안전 가드레일을 아키텍처 수준에서 영구적으로 변형한다는 점에서 중요하다.