다운 프로젝션
Transformer 블록의 MLP 내부에서 입력 차원을 축소하는 선형 투영 행렬을 의미하며, 연구에서는 슈퍼 웨이트가 주로 이 투영 행렬의 일부 요소로 출현한다고 보고되었다. 해당 투영의 특정 좌표가 큰 활성값을 유발하면 그 채널이 이후 층에서 지속적으로 영향력을 행사하게 된다. Hugging Face 형식 모델에서는 layers[i].mlp.down_proj.weight[...,...] 형태로 접근 가능하다고 표기되었다.