인과적 마스크
모델이 특정 토큰을 생성할 때 그 뒤에 올 미래의 토큰 정보를 보지 못하도록 가리는 행렬이다. 언어 생성 모델이 과거 정보만을 바탕으로 다음 단어를 예측하도록 강제하는 역할을 한다.