페이지드 어텐션(paged-attention)이란 무엇인가요?

Question

Accepted Answer

운영체제의 가상 메모리 관리 기법을 LLM의 KV 캐시에 적용한 기술이다. 메모리를 불연속적인 페이지 단위로 할당하여 파편화를 방지하고 GPU 메모리 활용도를 극대화한다.

paged-attention