Top-K 블록 선택
각 쿼리 블록에 대해 Ŝij의 상위 k개 블록을 선택해 FP16 경로를 구성한다. 선택되지 않은 블록은 FP4 경로로 처리되며, 두 경로의 결과를 online softmax로 합친다.