본문으로 건너뛰기

token-dropping

토큰 드롭핑

중급

모델 연산 과정에서 중요도가 낮은 토큰을 계산에서 제외하여 효율성을 높이는 기법이다. 단순히 값을 0으로 만드는 마스킹과 달리 텐서 크기 자체를 줄여 연산량과 메모리 사용량을 직접적으로 절감하는 효과가 있다.