토큰 효율성
LLM 입력에 사용되는 토큰 수를 최소화하여 비용을 절감하고 모델의 추론 효율을 높이는 설계 방식이다. 필요한 맥락 정보만 선택적으로 로드하여 컨텍스트 윈도우를 최적화하는 기법을 포함한다.