멀티 헤드 어텐션
트랜스포머 모델의 핵심 구성 요소로, 입력 데이터를 여러 개의 헤드로 나누어 병렬적으로 어텐션 연산을 수행함으로써 다양한 문맥적 관계를 학습한다.
AMD GPU에서 LLM 추론 속도 4.4배 향상? vLLM의 새로운 ROCm 백엔드 공개