타임 투 토큰
거대언어모델(LLM)이 사용자 요청을 받은 후 첫 번째 토큰을 생성하여 출력하기까지 걸리는 지연 시간이다. 실시간 상호작용의 품질을 결정하는 핵심적인 추론 성능 지표로 활용된다.