TL;DR
메커니즘 해석 연구는 거부 행동이 residual stream의 일관된 방향으로 나타난다고 규정했고, 이 방향을 활성화 평균 차이로 추출한 뒤 가중치에서 투영을 제거하면 거부를 억제할 수 있다. 단순 투영은 가중치 노름을 감소시켜 계층을 따라 진폭이 줄어들어 벤치마크 성능이 하락하므로, 각 행을 거부 방향에 직교화한 다음 원래 L2 노름으로 재스케일링하는 norm-preserving biprojection이 필요하다. 저자는 이 방식을 Qwen3.6-35B-A3B(하이브리드 MoE, 256 experts 등)에 적용하면서 하이브리드 어텐션의 프로젝션 이름 차이와 전문가용 3D 텐서에 대한 per-expert einsum 처리 같은 구현적 함정을 해결했고, 다양하게 구성한 7356개 프롬프트 데이터셋을 사용해 보류된 테스트에서 거부율을 0%로 달성함과 동시에 수학·코드 벤치마크를 보존했다. 다만 구현 시 누락되는 층 식별과 전문가 텐서 연산 실수가 재현 가능한 결과를 방해하므로 투명한 코드와 데이터 공개가 중요하다고 결론지었다.
실용적 조언
- 가중치에서 특정 방향을 제거할 때는 단순한 투영만으로 끝내면 안 된다. 투영은 벡터의 L2 노름을 감소시키므로 레이어를 거쳐 누적된 진폭 저하로 모델 성능이 하락한다. 따라서 각 행을 직교화한 뒤 원래 L2 노름으로 재스케일링하는 norm-preserving 절차를 반드시 적용해야 한다.
- 하이브리드 아키텍처에서는 레이어 이름과 구조를 면밀히 확인해야 한다. self_attn.o_proj와 linear_attn.out_proj처럼 서로 다른 이름으로 동일 목적의 가중치가 존재할 수 있으므로 모든 관련 프로젝션을 누락 없이 처리해야 한다. 구현 스크립트가 특정 이름만 대상으로 삼는지 점검하는 것이 필수적이다.
- MoE 전문가 텐서에 대해서는 per-expert 연산을 보장하는 텐서 연산을 사용해야 한다. (n_experts, d_hidden, d_model) 형태에서 전역 2D 처리를 하면 일부 전문가 가중치가 수정되지 않는다. authors가 제시한 einsum 식처럼 전문가 축을 유지하는 연산으로 각 전문가에 대해 독립적으로 투영을 적용해야 한다.
- 거부 방향을 추출할 유해 데이터셋은 양보다 표현 다양성이 중요하다. 다양한 카테고리와 프롬프트 스타일을 포함하면 특정 문체 패턴이 아닌 일반적 거부 메커니즘을 포착할 확률이 높아진다. 저자의 경우 7356개, 35개 카테고리, 10개 스타일로 구성해 일반화된 방향을 얻었다.
섹션별 상세
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.