헤드 특성화
LLM의 어텐션 헤드 중 일부가 원거리 검색에 특화되어 다른 헤드와 서로 다른 역할을 수행한다는 관찰. 이로 인해 헤드별로 필요한 정보가 다르며, Sparse Attention 설계의 근거가 된다.