물리적 토큰 드롭핑
트랜스포머 연산 과정에서 중요도가 낮은 토큰을 텐서에서 실제로 제거하여 메모리와 연산량을 줄이는 기법이다. 기존 어텐션이 마스킹만 하는 것과 달리 물리적으로 데이터를 제외하여 하드웨어 효율을 극대화하며, 추론 속도 향상과 VRAM 절감에 기여한다.