프롬프트 압축
LLM에 입력되는 프롬프트에서 정보 손실을 최소화하면서 불필요한 토큰을 제거하는 기법이다. 토큰 수를 줄여 API 비용을 낮추고 추론 속도를 높이는 효과가 있다. 대규모 컨텍스트를 다루는 RAG 시스템에서 특히 중요하다.
LLM 운영 비용 90% 절감하면서 성능은 그대로? Argmin AI의 최적화 전략
LLM 비용 80% 절감, 코드 한 줄로 시작하는 InferShrink