Kimi Delta Attention
KDA는 키 차원에서 채널 단위의 decay를 도입해 기억의 소멸을 채널별로 제어한다. delta-rule 기반 업데이트와 결합해 제거할 좌표와 쓸 좌표를 분리하기 전의 선행 단계를 제공한다.