ttft
사용자의 요청 후 모델이 첫 번째 응답 토큰을 출력할 때까지 걸리는 시간이다. 실시간 서비스의 사용자 경험을 결정짓는 핵심적인 지연 시간 지표이다.
GPU 메모리 한계를 넘다: 공유 스토리지로 LLM 추론 처리량 13배 향상
M3 울트라에서 Qwen3-80B가 상용 코딩 서비스급 성능을?
B200부터 3090까지, LLM 추론 및 학습 성능을 미리 계산하는 시뮬레이터
무거운 스택은 끝, 로컬에서 LLM 비용과 성능을 한 번에 잡는 OpenTrace
AI 보안의 새로운 접근: 단순 차단 대신 기만과 격리로 공격 대응