프롬프트 처리
모델이 입력을 받아 이해하고 다음 토큰을 생성하기 위해 준비하는 초기 계산 단계다. 컨텍스트가 길어질수록 이 단계의 연산량이 기하급수적으로 늘어나 전체 추론 속도를 늦추는 원인이 된다.
GPU L3 캐시 용량에 ubatch-size를 맞추니 추론 속도 10배 상승
CPU 추론 5배 가속? ik_llama.cpp와 Qwen 3.5의 놀라운 조합
5060 Ti에서 Gemma 2 27B 구동: IQ2_M 양자화로 코딩 실력까지 잡았다
128GB 맥 스튜디오도 버겁다? 로컬 LLM 코딩의 냉혹한 현실