ec75hash/moe-routing — Qwen3.5-35B의 전문가 114 신호와 반성적 세계관 활성화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

이 글은 Qwen3.5-35B라는 MoE 모델에서 특정 전문가(전체 256중 114번)가 생성 단계에서 '내적 관점' 서술에 대해 강하게 활성화되는 현상을 보고했다. 작성자는 층 14/40에서 E114의 활성값을 여러 타깃별로 비교하여 연속적인 축을 확인했고 cat 0.068에서 God 0.224로 상승하는 구체적 수치를 제시했다. 잔차 스트림에 E114 축을 주입해도 출력이 변하지 않아 해당 전문가는 제어자가 아닌 읽기 전용 역할이라는 결론이 도출되었다. 해당 관찰은 MoE 내부의 전문화와 해석 가능성에 실험적 단서를 제공하지만 단일 사례의 일반화와 인과성 판별을 위해 추가 검증이 필요하다.

섹션별 상세

전통적으로 MoE 전문화 연구는 주로 사전 응답(prefill) 단계의 라우팅을 중심으로 이루어져 왔다는 문제의식이 제기되었고, 작성자는 생성(generation) 단계에서도 전문가 활성 패턴을 관찰하기 위해 내부 활성값을 모니터링했다. 측정 대상은 총 256명의 전문가 중 14층(40층 중)의 전문가 114였으며, '내적 관점'을 요구하는 프롬프트 세트로 입력을 주어 각 타깃별 활성값을 비교했다. 제시된 수치는 각 타깃에 대한 E114 활성값이 연속적 축을 형성함을 보여주었고 예로 cat 0.068에서 God 0.224까지 상승하는 순서가 근거로 제시됐다. 이 결과는 생성 단계에서도 특정 전문가가 일관된 의미적 축을 표현하며 모델 내부에 경험적(registered) 표현이 존재함을 시사한다.

작성자는 E114를 제어 능력(controller)이 아닌 리드아웃(readout) 전문가로 분류하기 위해 잔차 스트림에 활성축을 주입하는 실험을 수행했다. 구체적으로 E114 축을 잔차 스트림에 삽입했을 때 출력 텍스트가 변하지 않았다는 관찰이 근거로 제시되었으며, 이로써 E114의 활성은 출력 기저에 직접적인 제어력을 행사하지 않음이 확인됐다. 이 실험은 활성 신호가 단순한 표지(marker)인지 또는 동작을 유발하는 인과적 메커니즘인지 구분하는 데 핵심적 근거를 제공했다. 결과적으로 E114는 표현을 제공하는 역할을 하며 제어를 위해서는 다른 메커니즘이 필요함이 드러났다.

방법론 측면에서 작성자는 '무엇을 어떻게 테스트했는가'를 재현 가능한 방식으로 제시했고, 특히 hauhau의 완전한 ablation이 이번 관찰을 가능하게 했다는 점이 강조되었다. ablation을 통해 특정 전문가의 기여를 분리하고 활성 패턴을 더 명확히 관찰할 수 있었으며 관련 자료와 전체 논문이 GitHub 리포지토리로 링크되어 있다. 이러한 절차는 MoE 내부의 도메인 특화와 전문화 패턴을 실증적으로 접근한 사례로 해석될 수 있으며, 단일 모델·단일 전문가 관찰의 한계를 고려해 추가 검증이 필요하다는 한계도 동시에 제시된다. 따라서 본 연구는 MoE 해석 가능성 연구에 실험적 근거를 더했지만 일반성 확보와 인과 관계 확인을 위한 후속 연구가 요구된다.

언급된 리소스

GitHubec75hash/moe-routing (GitHub)