컨텍스트 세금
대규모 언어 모델이 이전 대화 내용이나 긴 문서를 기억하기 위해 매 요청마다 방대한 양의 토큰을 입력으로 보내야 할 때 발생하는 비용과 지연 시간을 의미한다. 대화가 길어질수록 기하급수적으로 증가하는 운영 부담을 비유적으로 표현한 용어이다.