Transformer 레이어
Self-attention과 피드포워드 블록을 포함하는 모델의 반복 단위다. 본문 실험은 레이어 0부터 19까지의 각 레이어 히든 스테이트에 개별 값을 주입하여 출력 변화 효과를 관찰한다.