다중 헤드 잠재 어텐션(mla-multi-head-latent-attention)이란 무엇인가요?

Question

Accepted Answer

DeepSeek 모델에서 사용되는 효율적인 어텐션 구조로, KV 캐시의 압축된 잠재 표현을 사용하여 메모리 효율성을 극대화한다. HISA는 이 구조의 상단 인덱싱 과정을 최적화한다.

mla-multi-head-latent-attention