causal-attention-mask
인과적 어텐션 마스크
Transformer 모델에서 특정 토큰이 미래에 올 토큰을 참조하지 못하도록 가리는 행렬이다. 이를 통해 모델이 정답을 미리 보고 학습하는 것을 방지하며, 실제 생성 시에도 이전 정보만을 바탕으로 다음 단어를 예측하게 만든다.
인과적 어텐션 마스크
Transformer 모델에서 특정 토큰이 미래에 올 토큰을 참조하지 못하도록 가리는 행렬이다. 이를 통해 모델이 정답을 미리 보고 학습하는 것을 방지하며, 실제 생성 시에도 이전 정보만을 바탕으로 다음 단어를 예측하게 만든다.