latency-gap
지연 시간 격차
모델의 순차적인 토큰 생성 방식 때문에 발생하는 대기 시간과 시스템이 이론적으로 달성 가능한 최소 응답 시간 사이의 차이이다. 여러 모델을 병렬로 실행하고 정답이 확인되는 즉시 나머지를 중단하는 조기 종료(Early Termination) 기법을 통해 사용자 경험을 개선한다.
지연 시간 격차
모델의 순차적인 토큰 생성 방식 때문에 발생하는 대기 시간과 시스템이 이론적으로 달성 가능한 최소 응답 시간 사이의 차이이다. 여러 모델을 병렬로 실행하고 정답이 확인되는 즉시 나머지를 중단하는 조기 종료(Early Termination) 기법을 통해 사용자 경험을 개선한다.