토큰 고갈
LLM이 한 번에 처리할 수 있는 최대 정보량인 컨텍스트 윈도우가 가득 차서 더 이상 새로운 입력을 받거나 정상적인 추론을 할 수 없는 상태이다. 불필요한 데이터가 컨텍스트를 점유하면 모델의 성능이 급격히 저하되거나 세션이 중단된다.