트랜스포머 어텐션
입력 데이터 내의 토큰 간 상관관계를 계산하여 중요한 정보에 집중하는 메커니즘이다. 최근 연구에 따르면 이 패턴이 시퀀스의 시작과 끝 토큰에 치우치는 경향이 있어 긴 문맥 중간의 정보를 놓치는 원인이 됨이 밝혀졌다.