헤드 차원
트랜스포머 모델의 어텐션 헤드가 처리하는 데이터의 차원 크기이다. 이 값이 클수록 모델의 정교한 학습이 가능하지만, 비례하여 KV 캐시 크기가 증가하므로 추론 시 메모리 효율성과 성능 사이의 균형이 중요하다.