인과적 마스킹
텍스트 생성 시 모델이 현재 시점 이후의 미래 토큰을 미리 보지 못하도록 어텐션 스코어 행렬의 상삼각 부분을 가리는 기법이다. 이를 통해 모델은 이전 토큰들만을 기반으로 다음 토큰을 예측하는 자동 회귀적 특성을 유지한다.
GPT-2를 내 손으로 직접? MAX API로 배우는 LLM 아키텍처