그룹 쿼리 어텐션
멀티 헤드 어텐션의 성능과 멀티 쿼리 어텐션의 효율성을 결합하여 메모리 대역폭을 절약하는 아키텍처이다. 데이터 이동량을 줄여 모바일 기기의 발열을 억제하고 안정적인 추론 성능을 보장한다.
스마트폰에서 0.5초 만에 4K 이미지 생성? 구글 나노-바나나 2의 혁신