회로 속성 기반 망각: Circuit Attribution으로 인한 Quantization-Permanent Unlearning

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

deployed LLM은 일반적으로 4-bit PTQ로 양자화되며, 기존의 망각 기법은 양자화로 인해 되돌려지거나 망각이 축소될 수 있다. 본 연구는 회로 단위로 지식이 저장된 부분을 찾아 그 부분에 한정된 업데이트를 적용하고, 이를 NF4 양자화의 바운더를 넘어가도록 floor를 적용해 양자화-영구적 망각(permanence)을 보장한다. CAD를 도입해 구조적 erasure를 행동적 성능 변화와 분리 진단한다. 이로써 멀티모달/대형언어모델의 배포 환경에서 망각의 지속 가능성을 실험적으로 검증할 수 있게 된다.

왜 중요한가

deployed LLM은 일반적으로 4-bit PTQ로 양자화되며, 기존의 망각 기법은 양자화로 인해 되돌려지거나 망각이 축소될 수 있다. 본 연구는 회로 단위로 지식이 저장된 부분을 찾아 그 부분에 한정된 업데이트를 적용하고, 이를 NF4 양자화의 바운더를 넘어가도록 floor를 적용해 양자화-영구적 망각(permanence)을 보장한다. CAD를 도입해 구조적 erasure를 행동적 성능 변화와 분리 진단한다. 이로써 멀티모달/대형언어모델의 배포 환경에서 망각의 지속 가능성을 실험적으로 검증할 수 있게 된다.

핵심 기여

Dual-failure 문서화

Gradient 기반 망각 방법은 BF16에서 의미 있는 forget를 달성해도 4-bit PTQ에서 복구되지만, 회로-제한 없이 전체 파라미터에 업데이트를 분산시키기 때문에 재확산이 발생한다. 반면 양자화-생존 방식은 망각은 유지하나 구조적 변경이 아니라 출력 재지정으로 들어선다. 두 모드 모두 NF4 bin width보다 업데이트가 작고, 이로 인해 경계가 넘지 못해 망각이 유지되지 않는다는 구조적 원인을 보인다.

MANSU 제안 및 구성

MANSU는 3단계 파이프라인으로 구성된다. Phase 1 Localize: EAP-IG로 forget 회로 C를 식별한다. Phase 2 Project: C에 속한 업데이트를 retain- Fisher의 ker(HCC) 쪽으로 투영하는 회로-제약 행렬을 적용한다. Phase 3 Floor: 누적 업데이트가 NF4의 bin 경계를 crossing하도록 각 파라미터의 누적 변화를 magnitude floor δi로 재조정한다. 이로써 quantization 생성을 보장한다.

이론적 보장

Theorem 1: 회로-제한(projection)이 retain bound를 엄격하게 구현하며, Lemma 1은 quantization 생성을 Construction-time으로 보장한다. Proposition 2는 NF4의 floor이 업데이트를 양자화 bin 경계를 넘기게 만들어 양자화-영구적 망각을 강화한다.

CAD 및 정교한 진단 도입

CAD를 도입해 구조적 erasure를 평가하고 AS-C/AS-NC와의 관계로 국소화의 정도를 판단한다. 이로써 행동 변화와 구조적 지식 제거의 차이를 정량적으로 구분할 수 있다.

다양한 모델 및 도메인에서의 일반화

Llama-3.1-8B-Instruct, Qwen-3-8B, Gemma 계열 등 여러 모델 패밀리와 WMDP-bio/chem/cyber, MUSE에서 실험을 수행해 네 가지 속성(meaningful forgetting, retain preservation, non-positive PTQ gap, structural erasure)을 모두 만족하는 최초의 방법임을 시사한다.

핵심 아이디어 이해하기

기존의 gradient 기반 망각 방법은 매개변수 수십억 개에 걸쳐 업데이트를 분산시키고, NF4 양자화 bin 너비보다 작은 업데이트를 생성해 결과적으로 양자화 단계에서 제거되거나 되돌려진다. 2) 해결 원리는 지식 회로를 사실상 sparse하게 국소화하고, 이 회로 C에 한정된 업데이트를 수행한 뒤, retain-정보의 방향으로 projection하여 retain 손실를 엄격히 제한하는 것과, 누적 업데이트가 NF4 bin 경계를 crossing하도록 magnitude floor δi를 부과하는 것의 결합이다. 3) 이 세 가지 구성은 quantization permanence를 construction-time으로 보장하며, CAD를 통해 구조적 erasure를 행동적 변화와 구분할 수 있다.

방법론

Phase 1: Localize — EAP-IG를 사용해 forget-set 항목에 관여하는 top-K MLP 서브레이어로 회로 C를 식별한다. - Phase 2: Project — 업데이트는 C에 국한되어, [FC]ii가 τ 이하일 때만 반영되도록 diagonal-Fisher를 근사한 null-space projection을 적용한다. 이를 통해 retains를 위한 bound를 강화한다. - Phase 3: Floor — 학습이 끝난 시점에 δi로 각 파라미터 누적 업데이트를 재조정해 NF4 경계를 넘어가도록 만드며, 이로써 Q4(θ′) 하에서도 망각이 영구적으로 남게 한다. - Training objective: 기존의 Lf에 대한 cross-entropy와 함께 retain- KL 항을 포함해 forget-set의 가치를 감소시키고 retain-set의 분포를 유지한다. - Canonic notation: ∆θC ∈ ker(HCC), ∆θC¯ = 0, δi는 NF4 bin width에 대응.

주요 결과

메인 벤치마크: Llama-3.1-8B-Instruct/WMDP-bio에서 MANSU의 BF16: 0.430, NF4: 0.390, ∆PTQ: −0.040, Rt/Util: 0.523, MMLU: 0.573, IFEval: 0.551. Datasets의 다른 조합에서도 NF4가 음수의 ∆PTQ를 유지하며 망각을 강화한다. - ablation: magnitude floor 없이면 BF16 망각이 감소하고, Null-space 없이면 retain가 크게 손상되며, random circuit를 사용하면 CAD가 크게 감소하는 경향이 확인된다. - Cross-domain 일반화: Gemma, Llama, Qwen 계열에서 MANSU의 ∆PTQ가 음수인 셀 비율이 대체로 유지되며, CAD은 1.0 이상으로 확인되기도 한다(고정된 회로를 가진 MANSU의 경우). - Wall-clock 타임: 총 45분/실험(EAP-IG 20분, Fisher 8분, Training 14분, NF4 평가 3분).

기술 상세

전체 아키텍처는 EAP-IG 기반의 회로 localization과 회로제한된 null-space projection으로 구성된다. 2) 핵심 수학적 기반은 회로 C의 업데이트가 ker(HCC)로의 투영된다는 점, diagonal-Fisher를 사용한 근사 투영, 및 magnitude floor로 NF4 경계-crossing 보장을 포함한다. 3) Prior work 대비 차별점은 global projection이 아닌 회로-제한(projection)을 적용해 retain 관계를 강화하고, floor를 통해 quantization permanence를 보장한다. 4) 구현 및 학습 세부사항으로는 phase별 3단계 파이프라인, KL retain anchor, 3 MLP 프로젝션, δi 계산 방법, α 파라미터, λ=200의 KL 가중치, 30-step training, 100 Fisher 샘플 등 상세 파라미터가 있다.

한계점

본 연구는 두 flagship 모델(Llama-3.1-8B-Instruct, Qwen-3-8B)와 WMDP 벤치마크에서 주로 평가되었으며, 작은 모델/다른 양자화 설정에 대한 확장성은 추가 검증이 필요하다. 또한 EAP-IG Attribution의 안정성은 데이터 세트의 다양성과 모델 구성에 따라 달라질 수 있으며, 본 실험은 MCQ 형태의 지식 기억에 집중되어 있다.

실무 활용

실무 배포 시 양자화로 인한 망각의 소멸 여부를 방지하기 위한 효과적인 도구로 MANSU를 제시한다. NF4 양자화 환경에서도 forget를 구조적으로 유지하고, CAD를 통해 망각 메커니즘을 확증할 수 있다.

해로운 지식의 안전한 제거가 필요한 LLM 배포 파이프라인에서 MANSU를 사용해 quantization-robust 망각을 구현
다양한 모델 아키텍처(Qwen, Gemma, Llama)에서 회로-특정 제거 전략의 일반화 검증
실무에서 PTQ-손실 없이 망각을 강화하기 위한 회로 식별 및 검증 워크플로우 확립

코드 공개 여부: 비공개

키워드

Machine Unlearning(머신 언러닝)Large Language Models(대형 언어 모델)Model Quantization(모델 양자화)Circuit Attribution(회로 속성 해석)Post-Training Quantization(PTQ)Quantization-Permanent Unlearning(양자화-영구 망각)

코드 예제

text

Algorithm 1: MANSU (Mechanistic-Aligned Null-Space Unlearning) — Phase 1 Localize (EAP-IG attribution); Phase 2 Project (restrict updates to circuit C and apply Fisher-based mask); Phase 3 Floor (rescale updates to cross NF4 bin boundaries).

Phase 1: EAP-IG로 forget 회로를 찾고, Phase 2: C에 속한 매개변수만 업데이트하고 Fisher 정보의 방향으로 투영, Phase 3: NF4 바아의 경계 근처에서 모든 업데이트가 양자화를 벗어나도록 floor를 적용.