멀티 헤드 어텐션
입력 시퀀스의 서로 다른 부분 간의 관계를 여러 개의 독립적인 '헤드'를 통해 병렬로 계산하는 메커니즘이다. 모델이 문맥 내의 다양한 의미적, 구조적 정보를 동시에 포착할 수 있게 하여 표현력을 높인다.
GPT-2를 내 손으로 직접? MAX API로 배우는 LLM 아키텍처