Transformer 레이어
Transformer의 각 레이어는 self-attention과 feed-forward를 포함하는 모듈의 층으로 구성된다. CLM detour의 효과가 주로 하위 레이어(0-7)에 나타남을 관찰한다.