attention-mechanism
입력 데이터의 각 부분이 서로 얼마나 관련이 있는지 계산하여 가중치를 부여하는 기술이다. 쿼리, 키, 값 벡터를 사용하여 문맥적 관계를 파악하며 LLM의 핵심 연산 단위를 구성한다.
LLM 메모리 병목 해결: 50배 압축에도 성능 유지하는 어텐션 매칭
"Q, K는 알겠는데 V는 왜 필요한가요?" 어텐션의 본질을 묻다
Q, K, V 행렬을 하나로? 어텐션 파라미터 67% 줄이고 CPU에서 초당 700토큰 뽑아내기
32K 토큰에서 367배 빠르다? 물리 법칙으로 구현한 차세대 어텐션
367배 빠른 속도? 물리 법칙으로 구현한 혁신적 어텐션 메커니즘