컨텍스트 토큰
LLM이 한 번에 처리할 수 있는 입력 정보의 단위이다. RAG 시스템에서 불필요한 정보를 줄여 이 토큰 수를 최소화하면 API 비용을 절감하고 모델의 응답 속도를 크게 향상시킬 수 있다.