그룹 쿼리 어텐션
멀티 헤드 어텐션의 성능과 멀티 쿼리 어텐션의 효율성을 결합하여 메모리 대역폭을 절약하는 아키텍처이다. 데이터 이동량을 줄여 모바일 기기의 발열을 억제하고 안정적인 추론 성능을 보장한다.