K-스무딩
어텐션의 키 행렬 내에 존재하는 이상치를 억제하여 양자화 효율을 높이는 기법이다. 학습 중 발생하는 수치적 불안정성을 완화하여 저비트 환경에서도 안정적인 학습을 가능하게 하며, SageBwd의 핵심적인 안정화 장치 중 하나이다.
INT8 양자화로 사전 학습 성능 격차 해소, SageBwd의 진화