토큰 관리
언어 모델이 한 번에 처리할 수 있는 데이터 단위인 토큰의 사용량을 최적화하는 기법이다. 컨텍스트 제한 내에서 효율적으로 데이터를 배치하여 추론 비용을 절감하고 시스템의 응답 속도를 향상시키는 것이 목적이다.