ZeroUnlearn: Few-shot로 민감 지식 제거를 한 번의 편집으로 달성
대형 언어 모델은 방대한 웹 코퍼스로부터 민감한 정보를 흡수해 안전성과 프라이버시 문제를 야기한다. 기존 언학(larging-scale unlearning) 방법은 재훈련이나 과도한 파인튜닝에 의존해 비용이 크고, 관련 지식까지 파괴할 위험이 있다. ZeroUnlearn은 민감 지식을 특정 입력에 대해 안전한 상태로 재매핑하고 원래 표현을 직교적으로 제거하는 프레임워크로, few-shot 설정에서 빠르고 정밀한 unlearning을 가능하게 한다.