컨텍스트 오버헤드
프롬프트가 길어질수록 모델이 처리해야 할 정보량이 늘어나 추론 속도가 느려지고 가용 토큰이 줄어드는 현상이다. 소형 모델일수록 이로 인한 성능 저하가 두드러진다.
프롬프트 없이 스킬 주입? KV 캐시 활용으로 소형 모델 성능 개선