멀티 쿼리 어텐션
여러 개의 Attention Head가 Key와 Value 값을 공유하도록 설계하여 메모리 사용량과 연산량을 줄이는 기법이다. 모델의 파라미터 효율성을 높여주며, 특히 메모리가 제한된 모바일 환경에서 대규모 언어 모델이나 확산 모델을 효율적으로 실행하기 위해 필수적으로 사용된다.