마스크 디퓨전
텍스트의 일부 토큰을 특수 마스크 토큰으로 가린 뒤, 모델이 주변 문맥을 이용해 가려진 원래 토큰을 예측하도록 하는 기법이다. 이미지 디퓨전의 가우시안 노이즈 대신 이산적인 마스킹을 사용하여 텍스트 데이터의 특성을 반영한다.