ZeroUnlearn: Large Language Models에서 소-shot 지식 언러닝을 위한 Null-Space 제약 기반 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

대형 언어 모델은 방대한 웹 코퍼스로부터 민감한 정보를 흡수해 안전성과 프라이버시 문제를 야기한다. 기존 언학(larging-scale unlearning) 방법은 재훈련이나 과도한 파인튜닝에 의존해 비용이 크고, 관련 지식까지 파괴할 위험이 있다. ZeroUnlearn은 민감 지식을 특정 입력에 대해 안전한 상태로 재매핑하고 원래 표현을 직교적으로 제거하는 프레임워크로, few-shot 설정에서 빠르고 정밀한 unlearning을 가능하게 한다.

왜 중요한가

대형 언어 모델은 방대한 웹 코퍼스로부터 민감한 정보를 흡수해 안전성과 프라이버시 문제를 야기한다. 기존 언학(larging-scale unlearning) 방법은 재훈련이나 과도한 파인튜닝에 의존해 비용이 크고, 관련 지식까지 파괴할 위험이 있다. ZeroUnlearn은 민감 지식을 특정 입력에 대해 안전한 상태로 재매핑하고 원래 표현을 직교적으로 제거하는 프레임워크로, few-shot 설정에서 빠르고 정밀한 unlearning을 가능하게 한다.

핵심 기여

Null-space 기반 지식 재매핑

forget-set의 입력-출력을 Neual Mn으로 재지정하고 Mf와의 유사성을 직교화해 원래 지식을 효과적으로 제거한다. W를 left-multiplying하는 multiplicative 업데이트를 통해 한 샘플에서의 정확한 지식 제거를 달성한다.

폐쇄형 해를 통한 효율적 편집

목표 매핑과 제약 조건을 결합한 최적화 문제를 통해 D˜에 대한 폐쇄형 해를 유도한다: D˜* = P(A + W)W⊤(W(B + I)W⊤)^{-1}, 여기서 A = MnKf⊤ + M0K0⊤, B = KfKf⊤ + K0K0⊤.

ZeroUnlearn-GD: 다중샘플 확장

대규모 다중 샘플(unlearning)에서는 Sylvester 방정식 형태의 최적해를 구하기 어렵자 GD 방식으로 근사해를 구한다. vec(D˜m) 표현으로 계산을 구현하며, 반복적으로 글로벌 최적에 수렴한다.

실험적으로 SOTA Baseline 대비 우수한 언러닝 성능

MCF, ZsRE, MQUAKE에서 일관된 Eff. 감소, Gen. 유지 및 Spe. 보존을 달성했다. Downstream 태스크(SST, MMLU, MRPC, COLA, RTE, NLI)에서 base 모델과 유사한 성능을 유지한다.

실용적 효율성 확보

SVD 단계는 수초 내 완료 가능하며 forget-set 크기가 커져도 전체 런타임은 선형적으로 증가한다. 메모리 사용은 약 14.9–17.4 GB 사이이며 end-to-end 편집 시간은 약 0.04–3.82 시간 수준으로 확장된다.

핵심 아이디어 이해하기

출발점: LLM은 대규모 데이터를 통해 특정 사실과 관계를 저장한다. forget-set의 지식을 제거하려면, 해당 지식의 표현을 원래 상태와 연관 없이 제거해야 하며, 단순한 가중치 감소만으로는 충분하지 않다. 기존 데이터 재학습은 비용이 많이 들고 관련 지식의 보존에 실패하기 쉽다.

방법론

해법은 두 축에서 작동한다. 첫째, W를 왼쪽에서 곱하는 D를 right null-space(Mf^T) 안에 위치시켜: Mf^T D = 0. 따라서 Mf에 의해 정의된 기억은 영향력을 잃고 다른 표현은 보존된다. 둘째, 목적 함수는 (i) Zero Term으로 Mf와의 내적을 0에 가깝게 만들어 원래 Mf를 직교화, (ii) Forget Term으로 Kf를 Mn으로 재매핑, (iii) Utility Term으로 M0와의 매핑을 유지한다. 이로써 잃은 지식은 Mn으로 대체되면서도 일반 지식은 유지된다.

주요 결과

한 샘플 설정에서의 실험은 ZeroUnlearn이 GA/FT/R0ME/MEMIT/AlphaEdit 대비 Forgetting 효과를 크게 개선하면서도 PPL과 Neighborhood Knowledge를 유지한다. 다중 샘플에서 ZeroUnlearn-GD는 큰 배치에서도 0% Eff.를 달성하는 예를 보였으며, 다운스트림 태스크에서도 base 모델과 유의미한 차이가 없었다.

기술 상세

아키텍처: 입력 키(K0, Kf)와 출력 값(M0, Mf)으로 구성된 FFN의 매핑을 재편하려고 한다. Phase 1에서 K0, Kf를 구성하고 Phase 2에서 A = MnKf^⊤ + M0K0^⊤, B = KfKf^⊤ + K0K0^⊤를 산출한다. SVD를 통해 Mf^⊤ = UΣV^⊤ 이고, P = I − VV^⊤ 이다. D˜* = P(A + W)W^⊤(W(B + I)W^⊤)^{-1} 이 최적해이다. 다중 샘플의 경우 D˜m에 대해 vec(D˜m) = (H^⊤ ⊗ Q + C^⊤ ⊗ I)^{-1} vec(Z) 로 표현되는 Sylvester형태를 활용하지만, 실용적으로는 Gradient Descent로 근사한다. 복잡도는 d 차원에서 O(d^2) per iteration이며, 메모리 이슈를 피하기 위해 Kronecker 기반의 대칭 행렬은 구성하지 않는다.

실무 활용

ZeroUnlearn은 민감 지식의 빠르고 정밀한 제거를 가능하게 하며, 재훈련 없이도 안전성과 프라이버시를 강화한다.

Privacy-compliant knowledge removal in deployed LLMs
Content moderation 및 harmful information 제거
Post-deployment knowledge updates without full retraining
Regulatory data deletion 및 data minimization compliance

코드 공개 여부: 공개

코드 저장소 보기

키워드

zerounlearnmachine unlearningmodel editingnull-spaceorthogonalitymultiplicative updatefew-shotLLMprivacy safety

용어 해설

Null-Space Projection: — 모델의 특정 표현 공간에서 민감한 정보를 포함하는 차원을 제외한 영역(넓은 공간)으로 매핑하는 기법으로, 원래 지식 표현과의 직교성(orthogonality)을 확보해 제거 효과를 높인다.
Orthogonality: — 두 벡터가 서로 직교일 때 내적이 0이 되도록 하는 성질로, 본 연구에선 업데이트된 표현과 원래 기억 간의 유사도를 최소화하는 데 사용된다.
Multiplicative Update: — 가중치 행렬을 덧셈이 아닌 곱으로 업데이트하는 방식으로, 일정 부분의 표현 공간을 보존하고 나머지 부분을 재매핑한다.
Causal Tracing: — 모델 내 각 층/모듈의 특정 단위가 진짜 지식에 얼마나 기여하는지 추적하는 기법으로, 본 연구에서 언러닝 대상의 위치 식별에 활용된다.
Target Neutral State: — <EOS> 같은 중립 토큰 또는 정해진 상태를 설정해 언러닝 후에도 일반 지식의 손상을 최소화하도록 하는 목표 상태.