그룹 쿼리 어텐션
Grouped-Query Attention의 약자로 여러 개의 쿼리 헤드가 키와 값 헤드를 공유하여 메모리 사용량을 줄이는 방식이다. 추론 속도를 높이면서도 성능 저하를 최소화한다.
24B 모델의 성능을 2B급 속도로? Liquid AI의 혁신적 A2B 아키텍처
24B 모델을 2.3B 연산으로? Liquid AI의 새로운 MoE 모델 출시
노트북에서 직접 학습시키는 나만의 Llama 3 모델
Llama 3를 바닥부터 학습한다? 30분 만에 끝내는 나만의 모델 만들기