kv-compaction
LLM 추론 시 발생하는 Key-Value 캐시의 메모리 점유를 줄이는 기술이다. 긴 문맥을 처리할 때 하드웨어 요구 사항을 낮춰주어 효율적인 모델 서빙을 가능하게 한다.
직접 만든 모델이 살아남을 수 있을까? 파인튜닝 vs API의 전략적 선택
엔비디아, 오픈AI에 300억 달러 투자? AWS AI가 일으킨 대규모 장애의 전말