희소 V-캐시 최적화
어텐션 메커니즘에서 중요도가 낮은 값들을 생략하는 최적화 기법이다. NexQuant는 이를 디코드 루프에 통합하여 약 60%의 연산을 건너뜀으로써 추론 효율을 극대화한다.