inference-latency
AI 모델이 입력을 받아 결과를 생성하기까지 걸리는 시간을 의미한다. 실시간 대화형 서비스에서 사용자 경험을 결정짓는 핵심 지표로, 하드웨어 성능과 최적화에 따라 단축될 수 있다.
OpenAI와 Cerebras의 만남, ChatGPT가 더 빨라지는 이유