마이크로 배치 크기
llama.cpp에서 프롬프트 처리를 위해 데이터를 나누는 최소 단위이다. 하드웨어의 캐시 효율과 병렬 처리 능력에 직접적인 영향을 미치며 최적화 시 성능을 크게 높일 수 있다.
GPU L3 캐시 용량에 ubatch-size를 맞추니 추론 속도 10배 상승