Attention-State Memory
길이가 긴 고정 prefix와 query 토큰 간의 어텐션 출력을 미리 계산해 저장하는 메모리로, 인퍼런스 시 조회하여 prefix-attention을 대체한다. 각 레이어별로 q бар, a_bar, Z_bar를 엔트리로 구성하고 prefix 재사용에 활용한다.