라이트하우스 어텐션
long-context pretraining에서 사용되는 선택 기반의 다층 피라미드 구조로 Q, K, V를 대칭적으로 풀링하고, 비미분 Top‑K 선택을 통해 하위 샘플링된 서브시퀀스에 dense SDPA를 적용하는 방법.