인과적 어텐션 마스크
Transformer 모델에서 특정 토큰이 미래에 올 토큰을 참조하지 못하도록 가리는 행렬이다. 이를 통해 모델이 정답을 미리 보고 학습하는 것을 방지하며, 실제 생성 시에도 이전 정보만을 바탕으로 다음 단어를 예측하게 만든다.