치환 등가성
입력 데이터의 순서가 바뀌면 출력 데이터의 순서도 동일하게 바뀌는 성질이다. Transformer의 Attention 메커니즘은 기본적으로 이 성질을 가지므로 문장 내 단어의 위치 정보를 파악하기 위해 별도의 위치 임베딩이 필요하다.