셀프 어텐션
입력 시퀀스의 각 토큰이 다른 모든 토큰과의 관계를 계산하는 메커니즘이다. 시퀀스 길이 n에 대해 O(n²)의 연산 복잡도를 가지며, 문장이 길어질수록 계산 비용이 급격히 증가하는 특징이 있다.
LLM 내부 구조를 파헤친 4,000자 논문: 수식부터 벤치마크까지
EDM 프레임워크로 구현하는 4배율 지형 데이터 초해상도
367배 빠른 속도? 물리 법칙으로 구현한 혁신적 어텐션 메커니즘
O(n²) 어텐션의 한계를 넘다: 파동 방정식과 FFT로 구현한 O(n log n) 모델
CNN을 대체할 차세대 비전 모델, Swin Transformer의 모든 것