Qwen3.6-35B-A3B-abliterated-v4 공개와 MoE 특화 norm-preserving abliteration 적용 사례

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

메커니즘 해석 연구는 거부 행동이 residual stream의 일관된 방향으로 나타난다고 규정했고, 이 방향을 활성화 평균 차이로 추출한 뒤 가중치에서 투영을 제거하면 거부를 억제할 수 있다. 단순 투영은 가중치 노름을 감소시켜 계층을 따라 진폭이 줄어들어 벤치마크 성능이 하락하므로, 각 행을 거부 방향에 직교화한 다음 원래 L2 노름으로 재스케일링하는 norm-preserving biprojection이 필요하다. 저자는 이 방식을 Qwen3.6-35B-A3B(하이브리드 MoE, 256 experts 등)에 적용하면서 하이브리드 어텐션의 프로젝션 이름 차이와 전문가용 3D 텐서에 대한 per-expert einsum 처리 같은 구현적 함정을 해결했고, 다양하게 구성한 7356개 프롬프트 데이터셋을 사용해 보류된 테스트에서 거부율을 0%로 달성함과 동시에 수학·코드 벤치마크를 보존했다. 다만 구현 시 누락되는 층 식별과 전문가 텐서 연산 실수가 재현 가능한 결과를 방해하므로 투명한 코드와 데이터 공개가 중요하다고 결론지었다.

실용적 조언

가중치에서 특정 방향을 제거할 때는 단순한 투영만으로 끝내면 안 된다. 투영은 벡터의 L2 노름을 감소시키므로 레이어를 거쳐 누적된 진폭 저하로 모델 성능이 하락한다. 따라서 각 행을 직교화한 뒤 원래 L2 노름으로 재스케일링하는 norm-preserving 절차를 반드시 적용해야 한다.
하이브리드 아키텍처에서는 레이어 이름과 구조를 면밀히 확인해야 한다. self_attn.o_proj와 linear_attn.out_proj처럼 서로 다른 이름으로 동일 목적의 가중치가 존재할 수 있으므로 모든 관련 프로젝션을 누락 없이 처리해야 한다. 구현 스크립트가 특정 이름만 대상으로 삼는지 점검하는 것이 필수적이다.
MoE 전문가 텐서에 대해서는 per-expert 연산을 보장하는 텐서 연산을 사용해야 한다. (n_experts, d_hidden, d_model) 형태에서 전역 2D 처리를 하면 일부 전문가 가중치가 수정되지 않는다. authors가 제시한 einsum 식처럼 전문가 축을 유지하는 연산으로 각 전문가에 대해 독립적으로 투영을 적용해야 한다.
거부 방향을 추출할 유해 데이터셋은 양보다 표현 다양성이 중요하다. 다양한 카테고리와 프롬프트 스타일을 포함하면 특정 문체 패턴이 아닌 일반적 거부 메커니즘을 포착할 확률이 높아진다. 저자의 경우 7356개, 35개 카테고리, 10개 스타일로 구성해 일반화된 방향을 얻었다.

섹션별 상세

메커니즘 해석 문헌에서는 거부 행동이 residual stream의 일정한 방향으로 구현된다는 핵심 인사이트가 도출됐다. 이 방향은 해로운·무해한 활성화 캐시의 평균 차이로 추정할 수 있으며, 추출된 방향을 가중치에서 투영 제거하면 거부 반응을 억제할 수 있다. 단순 투영 방식은 가중치 벡터의 노름을 감소시켜 계층을 거치며 residual 스트림의 진폭이 점진적으로 줄어드는 현상을 유발했다. 그 결과 여러 행렬에 일괄 적용하면 벤치마크 성능이 눈에 띄게 하락하는 문제가 발생했다.

노름 보존 바이프로젝션 방식은 각 가중치 행을 거부 방향에 대해 직교화한 다음 원래 L2 노름으로 다시 스케일링하는 두 단계로 구성된다. 첫 단계에서 가중치에서 r 성분을 제거하여 거부 방향 성분을 0으로 만들고, 두 번째 단계에서 제거 전의 L2 크기로 재조정하여 전체 노름을 보존한다. 이 과정은 투영만 수행했을 때와 달리 레이어별 진폭 감소를 방지하므로 수치적으로 모델의 기반 능력을 유지한다. 실제 적용 결과 저자 보고에서는 수학 및 코드 벤치마크가 보존되었고 거부 행동이 제거되었다.

MoE 특유의 구현상 함정이 두 가지로 보고됐다. 첫째 하이브리드 어텐션 구현에서는 일부 레이어가 self_attn.o_proj를, 다른 레이어가 linear_attn.out_proj를 사용하므로 단순 이름 매칭으로는 모든 투영을 놓치게 된다. 둘째 전문가 텐서는 (n_experts, d_hidden, d_model) 형태의 3차원 구조를 가지므로 2차원 행렬처럼 한꺼번에 처리하면 전문가별 변형이 반영되지 않는다. 해결을 위해서는 해당 층을 정확히 식별해 각 전문가 서브행렬에 대해 einsum ij,ejk->eik 식으로 연산을 적용해야만 모든 전문가 가중치에 대해 일관성 있는 투영이 수행된다.

거부 방향을 추출하기 위한 데이터 구성은 양보다 다양성이 중요하다고 보고됐다. 저자는 7356개 프롬프트, 35개 카테고리, 10개 프롬프트 스타일로 이루어진 'enriched harmful' 데이터셋을 구축했고, 특정 표현 유형('폭탄 만드는 방법' 등)만 포함하면 표현 패턴을 포착하는 벡터가 추출되어 일반적 거부 메커니즘과 다르게 편향될 위험이 있다고 지적했다. 다양성 확보는 추출된 방향의 문맥 일반화를 높여 테스트셋에서의 완전한 거부 제거로 이어졌다. 데이터셋과 방법론은 공개 리포지토리와 글을 통해 재현 가능하게 제시되었다.