Attention 잔류
Attention Residuals은 누적된 레이어 출력을 학습된 softmax 주의로 선택적으로 결합하는 방법으로 cross-layer routing을 가능하게 한다. 그러나 누적 상태의 중복성으로 인해 깊은 층에서 라우팅 구별성이 감소한다.