파라미터 효율성
모델의 성능을 유지하면서 사용되는 학습 매개변수의 수를 최소화하는 능력이다. 파라미터가 적을수록 메모리 사용량이 줄고 추론 속도가 빨라지는 이점이 있다. 모바일이나 노트북 같은 저사양 기기에서 AI를 구동하기 위한 핵심 기술이다.
Q, K, V 행렬을 하나로? 어텐션 파라미터 67% 줄이고 CPU에서 초당 700토큰 뽑아내기