그룹 쿼리 어텐션
Grouped-Query Attention의 약자로 여러 개의 쿼리 헤드가 키와 값 헤드를 공유하여 메모리 사용량을 줄이는 방식이다. 추론 속도를 높이면서도 성능 저하를 최소화한다.