전체 어텐션
Transformer 모델에서 시퀀스 내의 모든 토큰 쌍 간의 관계를 계산하는 표준 메커니즘이다. 모든 정보를 참조할 수 있어 정확도가 높지만, 시퀀스 길이의 제곱에 비례하는 연산량(N²) 때문에 긴 문맥 처리 시 비용과 시간이 급격히 증가한다.