가중치 행렬
모델 내부의 선형 변환을 수행하는 매개변수 행렬로, 입력 임베딩에 곱해져 다음 층의 활성화를 만든다. 가중치 행렬의 값이 학습 과정에서 조정되면 특정 입력 패턴에 대해 서로 다른 출력이 증폭되거나 억제되어 모델 동작이 바뀐다. 가중치의 집합적 동작을 이해하면 왜 특정 문맥에서 모델이 특정 출력을 내는지 해석하기 쉬워진다.