스케일링 인자
Dot-product attention에서 결과값이 너무 커져 Softmax의 기울기가 소실되는 문제를 방지하기 위해 차원의 제곱근으로 나누는 값이다. 이를 통해 학습 안정성을 확보하고 역전파 과정에서 그래디언트가 원활하게 흐르도록 돕는 역할을 한다.