토큰당 생성 시간
첫 토큰 이후 각 후속 토큰을 생성하는 데 걸리는 평균 시간이다. 전체 문장이 얼마나 빨리 완성되는지를 결정하며, 특히 긴 텍스트를 생성하거나 실시간 읽기 속도를 맞추어야 하는 애플리케이션에서 중요하다.
M3 울트라에서 Qwen3-80B가 상용 코딩 서비스급 성능을?
B200부터 3090까지, LLM 추론 및 학습 성능을 미리 계산하는 시뮬레이터
AMD MI325X로 LLM 추론 성능 2배 달성: Character.AI의 최적화 전략
학습보다 추론이 90%? AI 경제학의 판도를 바꾸는 추론 최적화의 비밀