프리필-디코드 분리
LLM 추론 과정을 연산 집약적인 첫 토큰 생성 단계(Prefill)와 지연 시간에 민감한 후속 토큰 생성 단계(Decode)로 나누어 서로 다른 컴퓨팅 자원에 할당하는 기술입니다. 이를 통해 두 단계 간의 자원 간섭을 줄이고 전체적인 추론 효율을 높입니다.
Together AI의 CPD: 긴 컨텍스트 추론 처리량 40% 향상