pre-fill-phase
사용자의 입력 프롬프트 전체를 한꺼번에 처리하여 초기 KV 캐시를 생성하는 추론의 첫 번째 단계이다. 연산량이 많아 GPU의 연산 성능(TFLOPS)에 주로 의존하며 첫 토큰 응답 속도를 결정한다.
학습의 시대는 끝났다? 이제는 '추론'이 AI 성능을 결정하는 핵심 지표