OBLITERATUS: 대형 언어 모델의 거부 행동 분석 및 제거를 위한 오픈소스 툴킷

섹션별 상세

Abliteration 기술은 모델의 은닉 상태에서 거부 반응을 일으키는 특정 방향을 찾아내고 이를 가중치 행렬에서 제거하는 원리로 작동한다. 재학습이나 파인튜닝 없이도 모델의 가중치를 직접 수정하여 거부 행동을 영구적으로 제거하거나, 추론 시점에 스티어링 벡터를 적용하여 가변적으로 제어할 수 있다.

OBLITERATUS는 SUMMON(로드), PROBE(활성화 수집), DISTILL(방향 추출), EXCISE(정밀 제거), VERIFY(검증), REBIRTH(저장)로 이어지는 6단계 정밀 파이프라인을 제공한다. 특히 EXCISE 단계에서는 노름 보존 biprojection 기법을 사용하여 모델의 전반적인 성능 저하를 최소화하면서 거부 방향만 도려낸다.

15개의 분석 모듈을 통해 모델 내부의 거부 메커니즘을 심층적으로 파악한다. 모델이 DPO, RLHF, CAI 중 어떤 방식으로 학습되었는지 감지하는 기능과, 거부 메커니즘이 제거 후 다시 나타나는 Ouroboros 효과를 측정하여 다회차 제거 전략을 자동으로 설정하는 기능을 포함한다.

HuggingFace Spaces, Google Colab, CLI, Python API 등 다양한 인터페이스를 지원하여 접근성을 높였다. 사용자는 코드 한 줄 없이 웹 UI에서 모델을 처리하거나, YAML 설정을 통해 재현 가능한 대규모 절제 연구를 수행할 수 있다.

커뮤니티 기반의 분산 연구 플랫폼 역할을 수행하며 사용자의 실행 데이터를 익명으로 수집한다. 이를 통해 아키텍처와 하드웨어에 따른 거부 메커니즘의 보편성을 연구하고, 오픈소스 생태계 전반의 정렬 기하학 데이터셋 구축을 목표로 한다.

기술

Python
PyTorch
HuggingFace
Gradio
SVD
PCA

활용 사례

모델 거부 행동 제거
모델 내부 메커니즘 분석
검열 없는 데이터셋 생성
레드팀 테스트 및 취약점 분석

언급된 리소스

GitHubOBLITERATUS GitHub Repository

논문Refusal in Language Models Is Mediated by a Single Direction (Arditi et al., 2024)