어텐션 헤드
Transformer 모델에서 입력 데이터의 서로 다른 부분 간의 관계를 병렬로 계산하는 단위입니다. 특정 헤드는 문법을, 다른 헤드는 오디오 특징을 처리하는 등 기능적으로 분화되어 작동합니다.