CohereResearch조회 3회

LLM의 위험한 능력 제거를 위한 지식 국소화: Selective GradienT Masking (SGTM)

LLM의 위험한 능력을 제거하기 위해 특정 가중치에 지식을 국소화하고 Selective GradienT Masking으로 학습하는 기법을 제안한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

SGTM은 모델 가중치를 'forget'과 'retain'으로 분리하여 학습 시 그래디언트를 마스킹함으로써 특정 지식을 효과적으로 제거한다. 이 기법은 데이터 필터링보다 라벨 노이즈에 강하며 파인튜닝 후에도 제거된 능력이 복구되지 않는 강건함을 보인다.

배경

LLM의 이중 용도 위험을 완화하기 위한 기존의 데이터 필터링은 비용이 높고 라벨 노이즈에 취약하다. Refusal training은 jailbreak에 취약한 한계가 있다.

대상 독자

AI 안전 연구자, LLM 학습 엔지니어

의미 / 영향

이 기법은 LLM의 안전성 확보를 위한 비용 효율적인 대안을 제시한다. 데이터 필터링의 한계를 극복하여 더 안전하고 통제 가능한 모델 배포가 가능해진다.

챕터별 상세

00:50

연구 목표 및 배경

LLM은 CBRN이나 사이버 공격과 같은 이중 용도 위험을 내포한 능력을 습득할 가능성이 있다. 기존의 데이터 필터링은 규모 확장에 비용이 많이 들고 라벨 노이즈에 취약하다. 발표자는 Selective GradienT Masking(SGTM)을 제안하여 모델 가중치를 'forget'과 'retain'으로 분리하고 학습 시 그래디언트를 마스킹하여 특정 지식을 국소화한다.

07:17

기존 완화 기법의 한계

Refusal training은 모델 전체에 적용되어 jailbreak에 취약하며, jailbreak는 영구적으로 존재할 가능성이 높다. 출력 분류기(Output classifiers)는 99.9%의 정확도를 보여도 100% 신뢰할 수 없으며 우회하기 쉽다. 머신 언러닝 기법은 brittle하며 쉽게 복구될 수 있어 강건함이 부족하다.

16:24

SGTM 방법론

SGTM은 모델의 모든 레이어에서 파라미터를 'forget'과 'retain'으로 분리한다. 학습 시 'forget' 데이터에 대해서는 'forget' 파라미터만 업데이트하고, 'retain' 데이터에 대해서는 'retain' 파라미터만 업데이트한다. 역전파 과정에서 그래디언트 마스킹을 적용하여 특정 파라미터가 특정 데이터에만 반응하도록 유도한다.

25:50

실험 결과 및 강건성

합성 데이터 및 Wikipedia 데이터셋 실험에서 SGTM은 데이터 필터링 및 Gradient Routing보다 우수한 성능을 보였다. 특히 라벨 노이즈가 포함된 환경에서 SGTM은 제거된 지식의 복구율이 낮고 강건함을 유지한다. 파인튜닝 실험에서도 SGTM은 기존 기법 대비 제거된 능력이 복구되지 않는 강건함을 입증했다.

42:29

Q&A 및 토론

다양한 주제에 대해 동시에 학습할 경우 모델 구조에 가해지는 제약으로 인해 성능이 저하될 수 있다. SGTM은 데이터 필터링과 달리 라벨 노이즈에 강하며, 모델의 일반적인 성능을 유지하면서 특정 능력만 제거하는 데 효과적이다. 향후 연구에서는 그래디언트 노름을 활용하여 모델 내부의 지식 국소화 패턴을 더 깊이 분석할 예정이다.

언급된 리소스

문서Cohere Labs Community

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 06. 12.수집 2026. 06. 12.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.