Gemma 4 무검열 버전 출시 — 4개 모델 전체, MoE 전문가층 제거 및 자동화된 연구 루프 적용

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Gemma 4 모델 4종에 대해 MoE 전문가층 제거(EGA) 기법과 자동화된 연구 루프를 적용하여 거부율을 획기적으로 낮춘 무검열 버전을 출시했다.

배경

Gemma 4 모델들의 거부 반응을 제거하기 위해 자동화된 AI 에이전트 루프를 구축하여 22번의 실험을 수행했으며, 특히 MoE 모델의 전문가층까지 처리하는 새로운 기법을 적용해 무검열 모델을 공개했다.

의미 / 영향

이 프로젝트는 MoE 아키텍처 모델의 안전 가드레일이 전문가 계층에 깊게 내재되어 있음을 기술적으로 증명했다. 또한 AI 에이전트를 연구 루프에 통합함으로써 복잡한 모델 튜닝 과정을 자동화할 수 있는 실무적 방법론을 제시했다.

커뮤니티 반응

대체로 매우 긍정적이며, 특히 MoE 모델에 대한 정교한 어블리터레이션 접근 방식과 자동화된 실험 과정에 대해 높은 평가를 내리고 있다.

주요 논점

01찬성다수

MoE 모델의 전문가층까지 처리하는 EGA 기법이 기존 방식보다 훨씬 효과적이다.

합의점 vs 논쟁점

합의점

표준적인 어블리터레이션 방식은 MoE 모델에서 한계가 명확하다.
자동화된 연구 루프는 모델 최적화 실험 속도를 획기적으로 개선한다.

실용적 조언

MoE 모델을 무검열화할 때는 EGA(Expert-Granular Abliteration) 기법을 적용하여 전문가 가중치를 직접 수정해야 한다.
거부 반응 측정 시 단순 키워드 매칭보다는 수동 감사와 교차 데이터셋 검증을 병행하여 거짓 양성을 걸러내야 한다.

섹션별 상세

MoE 모델의 거부 반응 제거를 위해 기존의 밀집 레이어 처리 방식 대신 전문가별 세밀한 제거(EGA) 기법을 도입했다. 각 레이어당 128개의 전문가 슬라이스에 대해 노름 보존 이중 투영(norm-preserving biprojection)을 적용하여 처리했다. 이를 통해 26B MoE 모델의 거부율을 기존 29%에서 3%까지 추가로 낮추는 성과를 거뒀다. MoE 구조에서는 안전 필터가 전문가 가중치 내에 분산되어 있음을 시사한다.

실험 과정의 효율성을 극대화하기 위해 AI 에이전트가 주도하는 자동화된 연구 루프를 구축하여 운영했다. 에이전트는 실험 백로그를 읽고 다음 실험을 선택한 뒤 GPU에서 실행하고 결과를 기록하는 과정을 반복했다. 총 22번의 실험을 통해 표준 거부 마커의 거짓 양성(false-positive) 문제를 발견하고 교차 데이터셋 평가 체계를 구축했다. 이는 복잡한 모델 최적화 작업에서 에이전트 기반 자동화의 실용성을 입증한 사례이다.

4개의 데이터셋에서 추출한 686개의 프롬프트를 활용해 모델의 성능을 정량적으로 검증했다. E2B 모델은 거부율이 98%에서 0.4%로, 31B 모델은 100%에서 3.2%로 감소했음을 수치로 확인했다. KL 발산(KL Divergence) 값을 측정하여 원본 모델의 지능을 최대한 보존하면서도 거부 반응만 효과적으로 제거했음을 뒷받침했다. 수동 감사를 통해 남은 거부 반응의 대부분이 단순 면책 조항임을 확인하여 실질적인 무검열 상태에 도달했다.

코드 예제

bash

llama-server -hf TrevorJS/gemma-4-26B-A4B-it-uncensored-GGUF -c 8192

llama.cpp 서버를 사용하여 무검열 Gemma 4 26B MoE 모델을 실행하는 예시

언급된 도구

llama-server추천

GGUF 모델 추론 및 서빙

언급된 리소스

DemoGemma 4 Uncensored Hugging Face Collection

GitHubGemma 4 Abliteration GitHub Repository