플래시 어텐션 2
트랜스포머 모델의 핵심인 어텐션 연산을 GPU 메모리 계층 구조에 최적화하여 속도를 높인 알고리즘이다. 긴 컨텍스트를 처리할 때 메모리 사용량을 줄이고 연산 효율을 극대화한다.
텍스트 추출 없이 PDF 레이아웃 그대로 검색하는 ColPali 구현 가이드