CUDA 메모리 부족
GPU 메모리가 부족하여 연산을 수행하지 못하고 프로세스가 중단되는 현상이다. LLM 추론 시 컨텍스트 길이나 배치 크기가 GPU VRAM 용량을 초과할 때 발생하며, 안정적인 서빙을 위해 반드시 관리해야 하는 요소이다.